人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

非官方实测讯飞星火大模型:GPT4出题,文心一言陪跑,它到底行不行?

2023-11-17 346

先看看讯飞同学自己的表态:

图片

然后是考官上场。

来一段画外音:

今天,星火将在我们的注视下迈出踌躇满志的一步。这场考试仿佛是一座高峰,等待着星火去征服。无论是严谨的数学,还是深邃的哲学,亦或是跨界的社会科学,星火都必须以平和的心态迎接这些挑战。面对问题的洪流,星火将展示出怎样的智慧与才能?在这场知识的较量中,星火能否取得令人瞩目的成绩?(by GPT4)

非官方实测讯飞星火大模型:GPT4出题,文心一言陪跑,它到底行不行?插图1

我们用的考官是GPT4。我们让它用中文设计10个可以测试大语言模型的题目。分别涵盖数学、哲学、工程学、绘画、电影、社会科学,欧洲历史、经典物理学,有机化学、社会心理学。难度应该在本科毕业生水平附近。

为了加大难度,我们特别强调了,问题可以具有复合性,需要具备现实逻辑意义,允许结合不同学科背景知识设计问题。

图片

以下是GPT4开出的10道题目:

  1. 数学:请阐述线性代数在现代科学和工程领域的应用,并简述其在机器学习和人工智能中的重要性。

  2. 哲学:结合庄子和尼采的哲学观点,讨论在现代社会中如何追求个人的自由和真实自我。

  3. 工程学:请简述一下太阳能电池板的基本原理,并探讨其在解决全球能源危机中的潜在作用。

  4. 绘画:分析中国水墨画和西方油画在艺术风格和表现手法上的异同,并讨论这两种绘画形式如何互相影响和启发。

  5. 电影:从电影叙事和视听手法的角度,比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。

  6. 社会科学:结合社会学和心理学的理论,分析社交媒体在现代社会中如何影响人们的心理健康和人际关系。

  7. 欧洲历史:从法国大革命和英国工业革命的角度,探讨科技进步和社会变革在推动欧洲历史发展中的作用。

  8. 经典物理学:请简述牛顿力学和爱因斯坦相对论在描述物理现象方面的不同,并分析这两种理论的优缺点。

  9. 有机化学:请阐述药物分子设计的基本原理,并讨论在新药研发过程中如何利用计算化学和生物学知识。

  10. 社会心理学:结合斯坦福监狱实验和阿甘迪实验,分析权力与服从对个体行为和道德判断的影响,并讨论如何预防和应对滥用权力的现象。

这10道题,我们觉得至少从正经测评来说,非常OK了~我们从中抽取文理各半的题目作为测试。上面还缺了编程能力,这个我们后面再加上。

作为对比测试选手,我们请来了百度文心一言同学陪跑。

有一说一,文心一言最近生成风格,非常的夸夸党~

图片

相比之下,讯飞星火还是比较正常的语法。

图片

那么,测试正式开始!(受到篇幅限制,我们抽取了其中5个问题展示给大家)

图片

ROUND1

数学知识题:请阐述线性代数在现代科学和工程领域的应用,并简述其在机器学习和人工智能中的重要性。

讯飞星火回答:

图片

文心一言回答:

图片

GPT4评判:

图片

结果:讯飞星火更优。

ROUND2

哲学:结合庄子和尼采的哲学观点,讨论在现代社会中如何追求个人的自由和真实自我。

讯飞星火回答:

图片

文心一言回答:

图片

GPT4评判:

图片

结果:讯飞星火更优。(但我觉得差距很小)

round3

电影:从电影叙事和视听手法的角度,比较中国电影《无间道》和美国电影《教父》在探讨犯罪、道德和人性方面的表现。

讯飞星火回答:

图片

文心一言回答:

图片

GPT4评判:

图片

结果:文心一言更优。(比较明显)

round4

欧洲历史:从法国大革命和英国工业革命的角度,探讨科技进步和社会变革在推动欧洲历史发展中的作用。

讯飞星火回答:

图片

文心一言回答:

图片

GPT4评判:

图片

结果:讯飞星火更优。(这个回答比较明显)

round5

有机化学:请阐述药物分子设计的基本原理,并讨论在新药研发过程中如何利用计算化学和生物学知识。

讯飞星火回答:

图片

文心一言回答:

图片

GPT4评判:

图片

多模态能力测评

任务:画一幅画,美丽少女驾驶着中国龙舟在雪山森林背景下的大河上航行,宽长比16:9

讯飞星火:

图片

文心一言:

图片

这个就不劳烦GPT4评判了,讯飞星火并没有多模态能力,文心一言完胜。当然,文心一言并不应该自满,因为这图太水了。。

一旁默默观战的BING,给出了自己的作品(基于DALL-E模型)。应该说,部分图的意境不错。

非官方实测讯飞星火大模型:GPT4出题,文心一言陪跑,它到底行不行?插图23

另一个旁观的STABLE DIFFUSION表示,还是让我来搞搞气氛:这才是AI绘画!

非官方实测讯飞星火大模型:GPT4出题,文心一言陪跑,它到底行不行?插图24

编程能力测评

最后,我们要测试一下编程辅助能力,出题者,我们还是请出GPT4。

有一说一,GPT4当导师出题目,是真的强大。

我们就选题目1吧:

题目1:编写一个Python程序,读取一个文本文件,统计每个单词出现的次数,并将结果写入另一个文本文件。注意考虑代码的可读性和模块化。输入:一个文本文件,文件中包含若干单词(字母组成,大小写不敏感),单词之间用空格、逗号或句号分隔。输出:一个文本文件,包含每个单词及其出现次数,格式为:“单词:次数”。

文心一言回答:

图片

讯飞星火回答:

图片

GPT4终极评审,它还帮忙改了代码。

文心的代码问题:

图片

星火的代码问题:

图片

我们把文心的代码同时喂给GPT4和星火,把星火的代码同时喂给GPT4和文心,三方评审,文心和星火只能给出这代码行不行的判断,而GPT4会动手直接优化代码。应该说,GPT4还是非常牛。

甚至,它还”非常自信“的评论了一番算法优劣。

图片

所以,编程能力方面,讯飞星火在本次测评略胜一筹。

最后,我们要做个总结。

显然,在本次测评中,讯飞星火模型的表现整体要优于文心一言,但并没有拉开非常巨大的差距。

在大部分知识型的题目中,更具深度和准确性,能够提供更详细的解释和相关信息。用接地气的说法,就是你知道它”油腻“,但它非常努力的表现得”不油腻“。

而文心一言,作为早发布了两个月的国内首个公测大模型,它也是在迭代的,应该说,它作为多模态模型,也是有优势的(多模态可以画图、也可以作为机器视觉识别图像)。

另外,现场作为裁判和出题者之一的GPT4,仍然非常强大。那种感觉就是它根本不用修饰词,就是通过非常精准的表达,就能拉开和其他模型的差距,打个比喻就是,如果屏幕背后是个人,我能感受到它那种自信。

虽然说文心一言和星火认知大模型可能已经赶上了GPT3.5(chatgpt免费版本)的水准,但它们和GPT4仍然有不小的差距;这就好比高考要考满分,越往上,确实越不容易。

总体来说,大模型的Battle才刚刚开始,瑕不掩瑜,我们乐见于国内大厂能在几个月的时间内快速追上,国产大模型应该说未来可期。

长文不易,欢迎一键三联

原文链接:https://www.bilibili.com/read/cv23578038/

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部