先看看讯飞同学自己的表态:

然后是考官上场。
来一段画外音:
今天,星火将在我们的注视下迈出踌躇满志的一步。这场考试仿佛是一座高峰,等待着星火去征服。无论是严谨的数学,还是深邃的哲学,亦或是跨界的社会科学,星火都必须以平和的心态迎接这些挑战。面对问题的洪流,星火将展示出怎样的智慧与才能?在这场知识的较量中,星火能否取得令人瞩目的成绩?(by GPT4)

我们用的考官是GPT4。我们让它用中文设计10个可以测试大语言模型的题目。分别涵盖数学、哲学、工程学、绘画、电影、社会科学,欧洲历史、经典物理学,有机化学、社会心理学。难度应该在本科毕业生水平附近。
为了加大难度,我们特别强调了,问题可以具有复合性,需要具备现实逻辑意义,允许结合不同学科背景知识设计问题。

以下是GPT4开出的10道题目:
-
数学:请阐述线性代数在现代科学和工程领域的应用,并简述其在机器学习和人工智能中的重要性。
-
哲学:结合庄子和尼采的哲学观点,讨论在现代社会中如何追求个人的自由和真实自我。
-
工程学:请简述一下太阳能电池板的基本原理,并探讨其在解决全球能源危机中的潜在作用。
-
绘画:分析中国水墨画和西方油画在艺术风格和表现手法上的异同,并讨论这两种绘画形式如何互相影响和启发。
-
电影:从电影叙事和视听手法的角度,比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。
-
社会科学:结合社会学和心理学的理论,分析社交媒体在现代社会中如何影响人们的心理健康和人际关系。
-
欧洲历史:从法国大革命和英国工业革命的角度,探讨科技进步和社会变革在推动欧洲历史发展中的作用。
-
经典物理学:请简述牛顿力学和爱因斯坦相对论在描述物理现象方面的不同,并分析这两种理论的优缺点。
-
有机化学:请阐述药物分子设计的基本原理,并讨论在新药研发过程中如何利用计算化学和生物学知识。
-
社会心理学:结合斯坦福监狱实验和阿甘迪实验,分析权力与服从对个体行为和道德判断的影响,并讨论如何预防和应对滥用权力的现象。
这10道题,我们觉得至少从正经测评来说,非常OK了~我们从中抽取文理各半的题目作为测试。上面还缺了编程能力,这个我们后面再加上。
作为对比测试选手,我们请来了百度文心一言同学陪跑。
有一说一,文心一言最近生成风格,非常的夸夸党~

相比之下,讯飞星火还是比较正常的语法。

那么,测试正式开始!(受到篇幅限制,我们抽取了其中5个问题展示给大家)

ROUND1
数学知识题:请阐述线性代数在现代科学和工程领域的应用,并简述其在机器学习和人工智能中的重要性。
讯飞星火回答:

文心一言回答:

GPT4评判:

结果:讯飞星火更优。
ROUND2
哲学:结合庄子和尼采的哲学观点,讨论在现代社会中如何追求个人的自由和真实自我。
讯飞星火回答:

文心一言回答:

GPT4评判:

结果:讯飞星火更优。(但我觉得差距很小)
round3
电影:从电影叙事和视听手法的角度,比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。
讯飞星火回答:

文心一言回答:

GPT4评判:

结果:文心一言更优。(比较明显)
round4
欧洲历史:从法国大革命和英国工业革命的角度,探讨科技进步和社会变革在推动欧洲历史发展中的作用。
讯飞星火回答:

文心一言回答:

GPT4评判:

结果:讯飞星火更优。(这个回答比较明显)
round5
有机化学:请阐述药物分子设计的基本原理,并讨论在新药研发过程中如何利用计算化学和生物学知识。
讯飞星火回答:

文心一言回答:

GPT4评判:

多模态能力测评
任务:画一幅画,美丽少女驾驶着中国龙舟在雪山森林背景下的大河上航行,宽长比16:9
讯飞星火:

文心一言:

这个就不劳烦GPT4评判了,讯飞星火并没有多模态能力,文心一言完胜。当然,文心一言并不应该自满,因为这图太水了。。
一旁默默观战的BING,给出了自己的作品(基于DALL-E模型)。应该说,部分图的意境不错。

另一个旁观的STABLE DIFFUSION表示,还是让我来搞搞气氛:这才是AI绘画!

编程能力测评
最后,我们要测试一下编程辅助能力,出题者,我们还是请出GPT4。
有一说一,GPT4当导师出题目,是真的强大。
我们就选题目1吧:
题目1:编写一个Python程序,读取一个文本文件,统计每个单词出现的次数,并将结果写入另一个文本文件。注意考虑代码的可读性和模块化。输入:一个文本文件,文件中包含若干单词(字母组成,大小写不敏感),单词之间用空格、逗号或句号分隔。输出:一个文本文件,包含每个单词及其出现次数,格式为:“单词:次数”。
文心一言回答:

讯飞星火回答:

GPT4终极评审,它还帮忙改了代码。
文心的代码问题:

星火的代码问题:

我们把文心的代码同时喂给GPT4和星火,把星火的代码同时喂给GPT4和文心,三方评审,文心和星火只能给出这代码行不行的判断,而GPT4会动手直接优化代码。应该说,GPT4还是非常牛。
甚至,它还”非常自信“的评论了一番算法优劣。

所以,编程能力方面,讯飞星火在本次测评略胜一筹。
最后,我们要做个总结。
显然,在本次测评中,讯飞星火模型的表现整体要优于文心一言,但并没有拉开非常巨大的差距。
在大部分知识型的题目中,更具深度和准确性,能够提供更详细的解释和相关信息。用接地气的说法,就是你知道它”油腻“,但它非常努力的表现得”不油腻“。
而文心一言,作为早发布了两个月的国内首个公测大模型,它也是在迭代的,应该说,它作为多模态模型,也是有优势的(多模态可以画图、也可以作为机器视觉识别图像)。
另外,现场作为裁判和出题者之一的GPT4,仍然非常强大。那种感觉就是它根本不用修饰词,就是通过非常精准的表达,就能拉开和其他模型的差距,打个比喻就是,如果屏幕背后是个人,我能感受到它那种自信。
虽然说文心一言和星火认知大模型可能已经赶上了GPT3.5(chatgpt免费版本)的水准,但它们和GPT4仍然有不小的差距;这就好比高考要考满分,越往上,确实越不容易。
总体来说,大模型的Battle才刚刚开始,瑕不掩瑜,我们乐见于国内大厂能在几个月的时间内快速追上,国产大模型应该说未来可期。
长文不易,欢迎一键三联
原文链接:https://www.bilibili.com/read/cv23578038/