当前位置：首页 » AI资讯

百度是不是抄不动gpt了？

2024-01-02

AI资讯

317

gpt2之前，算法都是开源的。既然是开源，就不存在抄袭的说法。gpt2之后不再开源了，百度就算是想抄也没得抄。

国内大模型基本上在3-3。5之间，距离4差至少半年的时间。

随手用手机一答，没想到有这么多人关注，针对一些评论区的问题，我再简单扩展一下。

1.原文有一处错误，国内大模型距离GPT3.5差距大概是一年半，不是距离GPT4差半年。

2.国内互联网头部企业其实一直都在做AI模型，有自己的技术路线，但同时也在关注国外的技术路线。从最早的谷歌开源transformer，到后来的GPT1、GPT2。但是从GPT3开始就没有再开源。

3.谷歌和OpenAI其实差距不大，两者主要的区别是，谷歌对模型准确度要求不高，一般60%-70%；相反OpenAI对模型准确度要求比较高，一般80-90%。GPT4打了谷歌一个措手不及，但谷歌很快就反应过来了，可能半年时间左右就能追上来。

4.国内和国外的差距比较明显，而且是全方位的差距。AI模型的三大要素，算法、算力、数据，分开来看。

算法：GPT3.5数据量是45PB，GPT4的数据量差不多是1000PB，差了大概20倍。这20倍主要是图像的数据。GPT4模型层级有128层，国内大概啊只有64层，差了一倍。如果模型跨不了这个层级，对于知识的吞吐和处理是不够的。模型层级是比较核心的一点，其他的一些算法国内也有，不过国外是100分，国内可能60-70分的样子。

算力：国外最先进的是英伟达的H100，国内还是V100+少量的A100做计算。V100跟 H100 比大概 1：80，再加上层级的两个梯度，这样算下来国内的训练效率就是国外的1：160。A100现在也被禁了，H100就更不要想了。国内寒武纪的芯片综合性能大概只有A100的70%-80%。

数据：除了前面提到的算法层级会影响数据吞吐量之外，数据本身也有差距。国内主要还是简体中文加上少量英文为主，国内的单词量其实在 100 亿level，然后国外已经到 5700 亿level，训练集上就是 1：57 的一个差距。

5.因为算法、算力和数据的差距，导致模型表现也有一些差距（30%左右），主要体现在6个方面；

①文本理解能力偏弱，特别是文言文；

②多轮对话，chat gpt对几百轮都不会跑题，百度大概是四五十轮；

③角色扮演，让模型以一个具体的形象（作家、记者等）生成内容，像之前网络上出现的ChatGPT编造新闻，连内容作者自己都很难分辨。但国内比较缺失这块能力。

④复杂问题推理，比如把 MBA 考试的逻辑题或者是gmat上面的逻辑题拿给 AI 去做，国内大概50分左右，ChatGPT能做到90分；

⑤代码生成能力，国内整个代码生成的能力，大概只能做简单的小程序，比如俄罗斯方块这种小游戏，200 行左右。chat gpt可以生成上千行的程序，C + +、HTML、Java、Python它都能生成，因为他们把Github上10亿行的代码都学习了，然后在codex代码生成这一块非常强。

⑥文本摘要生成，GPT 4现在已经可以支持 2500个字，可能只有几百个字，更长文本灌不进去（主要是模型层级的问题）。

再补充一点：为什么百度文心一言看着还是个半成品的样子就匆匆发布呢？有两点原因，第一，百度一直以来以人工智能头部企业自居，这就像打擂台，对方上场了，你却不敢应战，所有人都会从新审视百度；第二，底下的小弟坐不住了，你百度如果不发布，还有360，阿里，腾讯，华为等等，小弟就要换个码头拜了。所以，百度也是赶鸭子上架。

原文链接：https://www.zhihu.com/question/594296830/answer/2974697021?utm_id=0

算法谷歌

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » 百度是不是抄不动gpt了？

百度是不是抄不动gpt了？

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签

百度是不是抄不动gpt了？

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

小默AI工具导航网-1000+AI工具导航