gpt2之前,算法都是开源的。既然是开源,就不存在抄袭的说法。gpt2之后不再开源了,百度就算是想抄也没得抄。
国内大模型基本上在3-3。5之间,距离4差至少半年的时间。
随手用手机一答,没想到有这么多人关注,针对一些评论区的问题,我再简单扩展一下。
1.原文有一处错误,国内大模型距离GPT3.5差距大概是一年半,不是距离GPT4差半年。
2.国内互联网头部企业其实一直都在做AI模型,有自己的技术路线,但同时也在关注国外的技术路线。从最早的谷歌开源transformer,到后来的GPT1、GPT2。但是从GPT3开始就没有再开源。
3.谷歌和OpenAI其实差距不大,两者主要的区别是,谷歌对模型准确度要求不高,一般60%-70%;相反OpenAI对模型准确度要求比较高,一般80-90%。GPT4打了谷歌一个措手不及,但谷歌很快就反应过来了,可能半年时间左右就能追上来。
4.国内和国外的差距比较明显,而且是全方位的差距。AI模型的三大要素,算法、算力、数据,分开来看。
算法:GPT3.5数据量是45PB,GPT4的数据量差不多是1000PB,差了大概20倍。这20倍主要是图像的数据。GPT4模型层级有128层,国内大概啊只有64层,差了一倍。如果模型跨不了这个层级,对于知识的吞吐和处理是不够的。模型层级是比较核心的一点,其他的一些算法国内也有,不过国外是100分,国内可能60-70分的样子。
算力:国外最先进的是英伟达的H100,国内还是V100+少量的A100做计算。V100跟 H100 比大概 1:80,再加上层级的两个梯度,这样算下来国内的训练效率就是国外的1:160。A100现在也被禁了,H100就更不要想了。国内寒武纪的芯片综合性能大概只有A100的70%-80%。
数据:除了前面提到的算法层级会影响数据吞吐量之外,数据本身也有差距。国内主要还是简体中文加上少量英文为主,国内的单词量其实在 100 亿level,然后国外已经到 5700 亿level,训练集上就是 1:57 的一个差距。
5.因为算法、算力和数据的差距,导致模型表现也有一些差距(30%左右),主要体现在6个方面;
①文本理解能力偏弱,特别是文言文;
②多轮对话,chat gpt对几百轮都不会跑题,百度大概是四五十轮;
③角色扮演,让模型以一个具体的形象(作家、记者等)生成内容,像之前网络上出现的ChatGPT编造新闻,连内容作者自己都很难分辨。但国内比较缺失这块能力。
④复杂问题推理,比如把 MBA 考试的逻辑题或者是gmat上面的逻辑题拿给 AI 去做,国内大概50分左右,ChatGPT能做到90分;
⑤代码生成能力,国内整个代码生成的能力,大概只能做简单的小程序,比如俄罗斯方块这种小游戏,200 行左右。chat gpt可以生成上千行的程序,C + +、HTML、Java、Python它都能生成,因为他们把Github上10亿行的代码都学习了,然后在codex代码生成这一块非常强。
⑥文本摘要生成,GPT 4现在已经可以支持 2500个字,可能只有几百个字,更长文本灌不进去(主要是模型层级的问题)。
再补充一点:为什么百度文心一言看着还是个半成品的样子就匆匆发布呢?有两点原因,第一,百度一直以来以人工智能头部企业自居,这就像打擂台,对方上场了,你却不敢应战,所有人都会从新审视百度;第二,底下的小弟坐不住了,你百度如果不发布,还有360,阿里,腾讯,华为等等,小弟就要换个码头拜了。所以,百度也是赶鸭子上架。
原文链接:https://www.zhihu.com/question/594296830/answer/2974697021?utm_id=0