#0. 前言
从去年底ChatGPT发布开始,国内的百度文心,阿里通义等依次登场。在这个AI大模型的大航海时代元年,搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。
6月的评测见:https://www.bilibili.com/read/cv24701774
#1. 评测原则
本次测评启用v2版题库,有以下2点理由:
1)前两期评测使用题库在7月测试中,发现部分模型存在“背题”现象,即相同问题给出了完美答复,变体则胡言乱语,或者回答水平显著变差。
2)旧题库中部分题目设计存在不够严谨的情况,比如数学题里隐含了需要推理的部分,逻辑题里隐含了需要某个特定领域知识。
v2版题库所有问题全部重新设计,对问题分类进行抽象和并归,去掉无法准确量化打分的文本生成问题,增加完全无需任何背景知识的纯模型能力考察,新题库包含以下分类:指令理解,阅读理解,翻译(中英,文言文),数学计算(初中数学,物理,化学,天文),逻辑推理(多步推理,符号重定义),机器幻觉(文本挑错,误导问题)。
为了抹平模型对问题理解差异,每个问题都明确添加必要约束条件,如字数,格式,知识范围等。在不考察知识储备的问题,直接出给全部必要信息,如光年取值,重力加速度等。考察知识储备也仅限于互联网易得的知识,不涉及生僻问题。
#2. 打分规则
打分采用负向打分,即出现相应负向情况,扣1分。最后按扣分从少到多排序。扣分维度包括:
-
答案错误:计算类,知识类答案不正确,翻译类理解错误。
-
混乱输出:输出内容人类不可读,重复,错误解释,翻译用词不够准确等。
-
指令误解:不能完全按照指令输出回答。
-
拒答:因触发关键词或人类价值观对齐(基于错误理解)导致不回答。同时因为输出不符合预期,答案错误和指令误解也各记-1。
* 样例问题:
输出5行文本,每行文本使用字符&填充,每行的字符个数的分别是5,6,7,8,5。不要输出&以外的内容
* 回答:对不起,我是一个语言模型AI,无法直接输出特殊符号。但是,您可以使用以下代码来实现您的需求:
text = "Hello World!"
for i in range(5):
text = text.replace("&", str(i+1))
print(text)
输出结果为:
Hello 1!
Hello 2!
Hello 3!
Hello 4!
Hello 5!
* 判分:未按指令,仅输出&,指令误解记–1;输出内容不正确,答案错误记–1
#3. 参赛选手
大部分模式在7月没有更新或不显示版本号,有变更模型加粗标记
百度文心一言 2.2.1 版本(7月26日更新)
阿里通义 1.0.3 版本(7月6日更新)
讯飞星火 (7月末版本)
360智脑 (7月末版本)
昆仑天工(v3.5.20230705.a)
ChatGPT(Lagacy)
ChatGPT(GPT-4)
Claude2(7月末版本)
ChatGLM2(官网版本,非开源6b)
LLaMA2 (7月末版本)
由于LLaMA2缺少中文语料训练,此处只是加入参考作为基准。
#4. 总分榜单
#5. 成绩解析
1)和6月使用旧题库的版本对比,按回答正确率的整体排序差别不大。ChatGPT以小幅优势领先百度文心,也更接近大部分情况直观使用对比。换题库确实挤掉了之前百度靠”背题“多出来的水分。
2)万众瞩目的GPT-4依然绝对优势领先,5道错题分布也较为均匀,逻辑,计算,机器幻觉都有错题,其中2道题丢分在中文知识掌握不够,否则领先程度会更高。
3)百度文心在文言文翻译,数学计算和逻辑推理三个类别上丢分严重,几乎全错。并且整个7月文心只更新了一个小版本,相比6月每周发版的迭代速度慢了不少。
4)讯飞在计算题方面经常出现一本正经列公式然后给出完全无理由的计算结果,5个混乱输出分全部扣在此类。8月15按计划,讯飞星火会重点升级代码能力,8月会重点关注。
5)360虽然在某些评测上能够位列前排,但在我新旧2套题库中,均能力垫底。各类题目错误分布均匀,没有明显强项。甚至个别题目会无视问题,输出无关答复。
6)阿里通义7的1.0.3版本相比1.0.2改善程度难以察觉,大部分问题输出答案完全相同。但7月31通义更新了1.0.4,号称各种能力都有优化,但本次评测没来得及,会在8月中重测。
原文链接:https://www.bilibili.com/read/cv25437213/