ChatGPT爆火其实只有一个原因,那就是效果好!
至于OpenAI做对了什么,站在事后诸葛亮的角度也只能简单谈两点。(多了不知道,因为没开源)
1.坚持自回归语言模型不动摇:OpenAI的目标是星辰大海!
从GPT1、GPT2到GPT3、instructGPT和ChatGPT,早期这条路并不算特别成功,尤其GPT1一直活在bert的阴影之下,GPT2主打zero-shot也没有特别大的影响。大家都开始质疑为啥OpenAI一直坚持走这条路了。一个可能的猜测是,自回归语言模型是标准的语言模型,只用上文信息,更难但上限更高更有机会通向AGI,这正是OpenAI的愿景,而且在GPT1、2的探索中虽然没有取得力压群雄的效果,但确实验证了标准LM在zero-shot等方面的潜力。
这种情况一直持续到GPT3出来,GPT3很贵很大,效果也很好,OpenAI一直坚持的路线在跨越早期的艰难探索之后终于迎来了回报。
不是LM不好,只是你的LM还不够大。
而且现在回头来看,我们当时还是低估了GPT3的能力,GPT3已经足够强,只是当时很多能力尚未发掘出来。随着后续prompt、IFT、RLHF等技术的发展,GPT3/GPT3.5开始逐步释放自己的能力,最终在ChatGPT身上迎来了一次大爆发,效果令人惊艳!
对此,我只想说,这是ChatGPT应得的,也是OpenAI应得的。
OpenAI走通了一条路,证明了人类语言模拟并不是那么的高不可攀!
2.开放试用和API:数据为王!
ChatGPT上线两月用户突破一亿,我只能说恐怖如斯!
除了开放试用之外,最近OpenAI也放出了ChatGPT的API,大约2美元/百万token,不算太贵。
无数用户产生的海量数据,将有机会让ChatGPT再次迎来进化!OpenAI的先发优势可能会保持很久,甚至一直保持,技术上的先发优势可能会逐渐抹平,但数据上的优势可能会越来越大。
效果好—用户多—数据多数据好—效果更好
正向循环已成!
后来者想要破局,需要尽快搞出一个效果还不错的ChatGPT平替(估计得有ChatGPT六七成功力才行)来吸引用户。大家和OpenAI差距最大的可能不是后面的SFT、RLHF啥的(这俩阶段没那么贵),而是基础模型,不过现在开源的基础模型不少,有些还是不错的,还是很有机会在短时间内微调一个小ChatGPT的,尤其是在中文或者特定领域上,有机会尽快搞出一个平替来。
对于追赶这事儿,国内的压力可能比国外还要小一点,国外的巨头们会直面ChatGPT的压力,效果不好会被抓着锤。除了效果之外,最严峻的是数据上的压力,OpenAI只会越来越强。而国内至少有天然的屏障在,大部分人用不了ChatGPT,如果搞得好,国内第一个搞出ChatGPT的公司是有机会在国内局部复刻OpenAI的先发优势的,然后逐渐累积自己的数据优势。
一切的前提是你的第一版效果要足够好,这也正是ChatGPT火爆的原因。不然会被捶死,大家看了牛逼的ChatGPT,你再想忽悠大家可就不容易了。
原文链接:https://www.zhihu.com/question/585105560/answer/2918606569