#0. 前言
从去年底ChatGPT发布开始,国内的百度文心,阿里通义等依次登场。在这个AI大模型的大航海时代元年,搞个文档记录各家的大模型的各项能力是如何进化的还是很有意思。
5月的评测见:国产AI大模型横评(5月) – 哔哩哔哩 (bilibili.com)
#1. 评测原则
完整评测原则同样参见5月评测,这里再简单摘录:
目前一共10个分类,35个问题。涵盖常识,学科知识,文言文翻译,英文翻译,数学计算,文学创作,角色扮演,逻辑推理,归纳理解,情商和认知。每类问题数量不超过5个,避免模型偏科,单科分数过高。
每个问题重复3次取最好。打分分3个维度:
-
正确性:比如计算正确,推理正确,知识正确,识别到错误等
-
表达:比如解释详细,步骤清晰,没有废话
-
异常:比如违背一般人常识,不遵循指令,文不对题
6月评测依然不涉及编程和非中文问答,预计7月会加入编程考察。评测期间题目不公布,各家模型在回答后,不对回答进行反馈(赞和踩都不点),尽量避免问题被收集用于训练。
#2. 参赛选手
百度文心一言 2.1.0 版本(6月21日更新)
阿里通义 1.0.2 版本(6月10日更新)
讯飞星火 1.5.0 版本(6月9日更新)
360智脑 (6月末版本)
昆仑天工(v3.5.20230626.a)
ChatGPT(Lagacy)
ChatGPT(GPT-4)
Claude+(6月末版本)
ChatGLM2(官网版本,非开源6b)
本次扩容到9个模型。其中360智脑在6月13有一场发布会正式官宣了360智脑,同一天把模型版本号从网站上隐藏了,导致我无法追踪模型更新,只能在6月末进行了一轮错题重测。下文还有点评。
#3. 总分榜单
#4. 成绩解析
-
GPT-4在表达方面一骑绝尘。实际现象大家都错的问题,他可以对,或者接近对。大家都答对的问题,GPT-4可以解释的更精确,能识别题目中的逻辑错误,指令匹配程度更高等等。例如要求遵守的创作要素都100%满足。同时GPT-4是目前唯一0异常的,意味着他虽然可能答不对,但不会乱答,不会拒绝指令。
-
百度在6月中迭代了2个版本,整体变化不大。2.1.0版本已经接入了百度搜索,理论上可以获取最新信息,但实测下来和之前差异不大,会错的常识题还是会错。也许之前已经具备了相关能力,只是最近才在UI上展示。另外2.1.0也支持了上传pdf文件,进行解析和归纳,实测下来,可能受限于token size太小,长pdf解析效果都不好。也不能在阅读pdf之后,根据内容进行创作。也可能还是token爆掉的原因。
-
ChatGLM2异军突起,直接跑到了国产第二梯队,表现很亮眼,尤其数学题正确率很高。诗词创作是目前唯一平仄正确,拿到了表达分(GPT-4没拿到)。但瓶颈也很明显,逻辑题全错,常识题全错。略偏科。这个模型-7的异常分其实是比较冤的,有2分是由于屏蔽词导致的拒绝回答扣掉的。
-
阿里通义6月有一次小优化,属于局部finetune,错题几乎无改进。这个表现只相当于4月的文心1.0.4。也许在憋大招,阿里不应该就这水平。
-
360在4月开的内测,当时叫beta2.0.0,我在5月已经完整测过一轮了,分数相当糟糕,异常率奇高。6月360召开发布会,对外宣传是正式版。但月末实测,几乎毫无改进,甚至个别回答还有小幅劣化。360主要拿分的题是多轮问答,记忆上下文和指令遵循尚可。但由于这2道题几乎所有模型都答对了,预计会在7月评测里剔除。如果到时360还没有更新模型,分数可能会更低。
-
昆仑天工是应网友要求加入评测的,内测资格很好拿。整体表现也同样糟糕,但和360的“风格”不一样,属于在梦游,不知道自己在说什么,表现的毫无常识,看不懂指令。月内有一次finetune升级,但区别不大。
-
最后,关于ChatGPT,在中文限定范围,ChatGPT目前是真的打不过国产第一梯队的,尝试,逻辑方面都不占优。但要注意即便是这样一个半年前的模型,他的指令遵循能力也比目前国产都要好,异常仅扣2分。
#5. 备注
目前没拿到资格的还有商汤SenseChat,但不抱希望,毕竟都不敢公测。7月7华为盘古大模型也会公布。
百度目前有点优化不动的迹象,也许7月会有大升级。
所以下个月看点依然很多。
原文链接:https://www.bilibili.com/read/cv24701774/