当前位置：首页 » AI资讯

非官方实测讯飞星火大模型：GPT4出题，文心一言陪跑，它到底行不行？

2023-11-17

566

先看看讯飞同学自己的表态：

然后是考官上场。

来一段画外音：

今天，星火将在我们的注视下迈出踌躇满志的一步。这场考试仿佛是一座高峰，等待着星火去征服。无论是严谨的数学，还是深邃的哲学，亦或是跨界的社会科学，星火都必须以平和的心态迎接这些挑战。面对问题的洪流，星火将展示出怎样的智慧与才能？在这场知识的较量中，星火能否取得令人瞩目的成绩？（by GPT4)

我们用的考官是GPT4。我们让它用中文设计10个可以测试大语言模型的题目。分别涵盖数学、哲学、工程学、绘画、电影、社会科学，欧洲历史、经典物理学，有机化学、社会心理学。难度应该在本科毕业生水平附近。

为了加大难度，我们特别强调了，问题可以具有复合性，需要具备现实逻辑意义，允许结合不同学科背景知识设计问题。

以下是GPT4开出的10道题目：

数学：请阐述线性代数在现代科学和工程领域的应用，并简述其在机器学习和人工智能中的重要性。
哲学：结合庄子和尼采的哲学观点，讨论在现代社会中如何追求个人的自由和真实自我。
工程学：请简述一下太阳能电池板的基本原理，并探讨其在解决全球能源危机中的潜在作用。
绘画：分析中国水墨画和西方油画在艺术风格和表现手法上的异同，并讨论这两种绘画形式如何互相影响和启发。
电影：从电影叙事和视听手法的角度，比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。
社会科学：结合社会学和心理学的理论，分析社交媒体在现代社会中如何影响人们的心理健康和人际关系。
欧洲历史：从法国大革命和英国工业革命的角度，探讨科技进步和社会变革在推动欧洲历史发展中的作用。
经典物理学：请简述牛顿力学和爱因斯坦相对论在描述物理现象方面的不同，并分析这两种理论的优缺点。
有机化学：请阐述药物分子设计的基本原理，并讨论在新药研发过程中如何利用计算化学和生物学知识。
社会心理学：结合斯坦福监狱实验和阿甘迪实验，分析权力与服从对个体行为和道德判断的影响，并讨论如何预防和应对滥用权力的现象。

这10道题，我们觉得至少从正经测评来说，非常OK了~我们从中抽取文理各半的题目作为测试。上面还缺了编程能力，这个我们后面再加上。

作为对比测试选手，我们请来了百度文心一言同学陪跑。

有一说一，文心一言最近生成风格，非常的夸夸党~

相比之下，讯飞星火还是比较正常的语法。

那么，测试正式开始!(受到篇幅限制，我们抽取了其中5个问题展示给大家）

多模态能力测评

任务：画一幅画，美丽少女驾驶着中国龙舟在雪山森林背景下的大河上航行，宽长比16：9

讯飞星火：

文心一言：

这个就不劳烦GPT4评判了，讯飞星火并没有多模态能力，文心一言完胜。当然，文心一言并不应该自满，因为这图太水了。。

一旁默默观战的BING，给出了自己的作品（基于DALL-E模型）。应该说，部分图的意境不错。

另一个旁观的STABLE DIFFUSION表示，还是让我来搞搞气氛：这才是AI绘画！

编程能力测评

最后，我们要测试一下编程辅助能力,出题者，我们还是请出GPT4。

有一说一，GPT4当导师出题目，是真的强大。

我们就选题目1吧：

题目1：编写一个Python程序，读取一个文本文件，统计每个单词出现的次数，并将结果写入另一个文本文件。注意考虑代码的可读性和模块化。输入：一个文本文件，文件中包含若干单词（字母组成，大小写不敏感），单词之间用空格、逗号或句号分隔。输出：一个文本文件，包含每个单词及其出现次数，格式为：“单词：次数”。

文心一言回答：

讯飞星火回答：

GPT4终极评审，它还帮忙改了代码。

文心的代码问题：

星火的代码问题：

我们把文心的代码同时喂给GPT4和星火，把星火的代码同时喂给GPT4和文心，三方评审，文心和星火只能给出这代码行不行的判断，而GPT4会动手直接优化代码。应该说，GPT4还是非常牛。

甚至，它还”非常自信“的评论了一番算法优劣。

所以，编程能力方面，讯飞星火在本次测评略胜一筹。

最后，我们要做个总结。

显然，在本次测评中，讯飞星火模型的表现整体要优于文心一言，但并没有拉开非常巨大的差距。

在大部分知识型的题目中，更具深度和准确性，能够提供更详细的解释和相关信息。用接地气的说法，就是你知道它”油腻“，但它非常努力的表现得”不油腻“。

而文心一言，作为早发布了两个月的国内首个公测大模型，它也是在迭代的，应该说，它作为多模态模型，也是有优势的（多模态可以画图、也可以作为机器视觉识别图像）。

另外，现场作为裁判和出题者之一的GPT4，仍然非常强大。那种感觉就是它根本不用修饰词，就是通过非常精准的表达，就能拉开和其他模型的差距，打个比喻就是，如果屏幕背后是个人，我能感受到它那种自信。

虽然说文心一言和星火认知大模型可能已经赶上了GPT3.5（chatgpt免费版本）的水准，但它们和GPT4仍然有不小的差距；这就好比高考要考满分，越往上，确实越不容易。

总体来说，大模型的Battle才刚刚开始，瑕不掩瑜，我们乐见于国内大厂能在几个月的时间内快速追上，国产大模型应该说未来可期。

长文不易，欢迎一键三联

原文链接：https://www.bilibili.com/read/cv23578038/

讯飞

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » 非官方实测讯飞星火大模型：GPT4出题，文心一言陪跑，它到底行不行？

非官方实测讯飞星火大模型：GPT4出题，文心一言陪跑，它到底行不行？

ROUND1

数学知识题：请阐述线性代数在现代科学和工程领域的应用，并简述其在机器学习和人工智能中的重要性。

ROUND2

哲学：结合庄子和尼采的哲学观点，讨论在现代社会中如何追求个人的自由和真实自我。

round3

电影：从电影叙事和视听手法的角度，比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。

round4

欧洲历史：从法国大革命和英国工业革命的角度，探讨科技进步和社会变革在推动欧洲历史发展中的作用。

round5

有机化学：请阐述药物分子设计的基本原理，并讨论在新药研发过程中如何利用计算化学和生物学知识。

多模态能力测评

编程能力测评

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签

非官方实测讯飞星火大模型：GPT4出题，文心一言陪跑，它到底行不行？

ROUND1

数学知识题：请阐述线性代数在现代科学和工程领域的应用，并简述其在机器学习和人工智能中的重要性。

ROUND2

哲学：结合庄子和尼采的哲学观点，讨论在现代社会中如何追求个人的自由和真实自我。

round3

电影：从电影叙事和视听手法的角度，比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。

round4

欧洲历史：从法国大革命和英国工业革命的角度，探讨科技进步和社会变革在推动欧洲历史发展中的作用。

round5

有机化学：请阐述药物分子设计的基本原理，并讨论在新药研发过程中如何利用计算化学和生物学知识。

多模态能力测评

编程能力测评

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

小默AI工具导航网-1000+AI工具导航