人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

刘江:ChatGPT和GPT-4的底层逻辑,很多人都没有真正看懂

2024-05-25 85

刘江老师曾是美团技术学院的院长,是美团技术同学的老朋友了。他之前也是北京智源人工智能研究院的副院长。智源研究院2018年成立,从一开始就是对标OpenAI的,所以他跟踪研究OpenAI和ChatGPT已经好几年了。

Image(合影)

近期,刘江老师在大咖沙龙里作了题为《ChatGPT技术发展及未来展望》的分享。本次沙龙由美团离职员工社群三块钱(ID:exmeituaner)主办。以下摘录了刘江老师此次分享的大部分内容。

Image

今天很高兴和大家交流我自己学习ChatGPT的一些心得。现在大家对ChatGPT都是盲人摸象,很难看到全貌,我今天分享的也是一家之言,可能很多地方说的都不对,仅供大家参考。

Image

(茶歇由本来生活李敏同学赞助)

先说一个判断,我认为ChatGPT尤其是这几天GPT4,可能是我们有生之年见到的最具革命性的通用技术创新,它预示着智能革命的开始,所带来的产业机遇和挑战都将是极其巨大的。人类历史上可能只有工业革命能与之相提并论:

-工业革命实现了大多数人从农业到工业的转变;

-智能革命将实现大多数人从劳动者到消费者、自我兴趣探索者的转变。

因为变化太大,它的底层逻辑并不容易看懂。

我建议同学们首先都要去使用它,才能逐步理解它,然后大家一起多交流,才能打破盲人摸象的问题。这也是我和几位专家一起在图灵建了共学营的初衷。

然后更重要的是,我们所有人都要退后一步,打破所有习以为常的假设,重新思考和评估一切。

Image

(自由交流环节)

ChatGPT到底是什么?应该怎么理解?

下面我会从三个角度来分析。首先我们来看ChatGPT里的Chat。

Image

(分享中的刘江老师)

01

第一个角度:Chat=下一代自然交互界面和主要入口

Image

我有一些从事AI科研的朋友,他们的专业水平其实很好,但对ChatGPT进行一番研究(往往是不太充分的研究)后的反应是:ChatGPT好像没有太大的技术创新啊?不就是把模型搞大了,参数更多嘛?用的基础技术都是之前别人搞的嘛。其实也不是他们这么说,连深度学习三巨头之一、图灵奖得主Yann Lecun也是这样讲的。

他们可能没有意识到,其实ChatGPT仅仅在交互上的创新就会对产业格局乃至社会产生巨大影响。这也是我对过去几十年信息技术行业最重要的观察:价值最大的技术,往往都改变了大众交互方式。

我们来回顾一下人类和机器交互的历史。

其实在最早的人机交互可能是手动开关和打孔机。后来产生了一个里程碑式的交互进步:

第一代交互方式:CLI命令行界面(Command-Line Interface)


人们开始可以通过键盘、命令、显示器与机器进行交流。但这必须是受过训练的技术人员才能完成的,需要记忆很多命令和选项,对普通人门槛很高。

于是后来,更易用的交互方式诞生了:




第二代交互方式:GUI图形用户界面(Graphic User Interface)

到目前为止,我们大多是用的还是GUI,比如Windows、Mac电脑或苹果、安卓手机,我们通过屏幕上的窗口、菜单、图标等等,用鼠标、手指、动作与之互动,完成与机器的交流,普通用户稍加学习都能操作。这个发明实际上是目前仍然市值最高的两家IT公司——苹果和微软的基础,乔布斯和盖茨先后从施乐公司的PARC研究院偷师,学到了这项技术。

但这还是有一定门槛的,还是得学。尤其输入法就是个很大的障碍。很多老人和不识字的小孩子就不容易学会。输入法没问题的用户,使用软件的时候,还是要在各种菜单里寻找自己需要的功能,设计画图类的工作,还要通过鼠标或者触摸,一点一点的拖啊拽啊改啊,非常低效。

但今天ChatGPT普及之后,将使我们进入新一代交互方式:


第三代交互方式:NUI自然用户界面(Natural User Interface)

我们人之间每天互相交流就是通过听和说,这就是自然用户界面。自然界面是人人生来都会的,不用学,是因为它本来就是我们互动的方式。

虽然ChatGPT现在还主要是靠打字,但只是过渡。因为它什么都听得懂,接得住,是天生应该通过语音来使用的。我相信很快OpenAI推出的独立ChatGPT App,会支持语音。

我这么讲了以后,大家意识到为什么有些敏感的观察家会说ChatGPT将杀死搜索引擎了吗?对,搜索引擎还是第一代交互方式——命令行界面,是上古时期的用户体验。基于语音的自然界面,对它是一种跨代、降维打击。未来,ChatGPT也很容易多媒体化,会支持图片、视频、音频,这些方面的研发都已经在最先进的实验室里(比如OpenAI和智源)如火如荼的进行中了,而且进展很快。

最终,与之匹配的智能设备会是什么?之前小扎(指扎克伯格,Meta创始人)认为是VR,现在看不太像,他自己也承认现在AI更重要了。

我觉得AR眼镜(能看能听的)最有可能成为取代手机的主流计算设备,当然爱美的女同学可以戴隐形眼镜。我戴着眼镜进来会场一扫,哦,这是我的老朋友张义,这是三块钱搞的活动,每个同学他都能认出来,而且记住。它也能记录所有我说的和我听到的话,我看到的事情。第一人称视角,跟钢铁侠里面的贾维斯一样。这样系统会和我是一样的体验,获取我接受的所有数据,它作为一个个人助理,会最懂我,也能给我最贴近需求的服务。

最懂我们的数字助理将成为我们获取信息的主要入口。那个时候,手机就消失了,App可能也都不需要了。要知道,现在的科技巨头大多是手机和App公司。所以这里的颠覆是巨大的。

我们再来看ChatGPT里的GPT。

02

第二个角度:GPT=通用智能大模型AGI

ChatGPT到底是什么?中国投资圈喜欢说AIGC(AI生成内容, AI Generated Content),国外喜欢说GAI(生成式AI,Generative AI),其实这些表述都有一定的误导性。正确的表述应该是AGI(Artificial General Intelligence)或者通用人工智能大模型。

OpenAI从一开始就是要做AGI的,因此他们CEO之前在Twitter上对Generative AI这个词大行其道表示过不满。

Image

为什么呢?AGI或者说通用人工智能,是指人工智能系统能够干普通人能做的任何事情,并不只是生成。GPT的大思路其实是认为人类智能各种表现,本质上都是通过生成完成的,都是根据已有的一些信息,产生下一个词、再下一个词。比如我们所谓的理解,其实是收到一些信息后,生成一段自己的话,表示类似的意思。仔细想想,情感、意识、自动驾驶,其实也是这样,我们之前认为的很神奇的人的行为,这么看,也并不是那么神奇。

称GPT这样的技术为AIGC或者生成式人工智能,把这个大思路想小了。

这部分其实挺技术的,我来试着带大家理解其中最重要的思想脉络。

1.  ChatGPT背后的大脑——GPT

仅仅有语音为主的自然用户界面是不够的,因为之前Siri、Alexa和小度之类的语音应用也火了一阵,但慢慢就没有太多人用了。

ChatGPT只是冰山一角,本身看上去似乎只是个交互界面。而且根据《纽约时报》报道,这个轰动世界的交互界面,是一个因为有竞争,团队停下手中的活,用了13天临时赶出来的一个产品。

它真正强大的,是底下巨大的通用人工智能模型——GPT(最新的版本是GPT-4了)。

什么叫模型呢?可以比较粗略地理解为一个函数。

比如我们在中学都学过的函数:y=ax+b,也可以叫它模型,这个模型只有两个参数:a和b。

GPT-4的参数量没有公布,但GPT-3的参数已经高达1750亿……大家想象一下,这该是多么复杂的函数,参数多到人已经无法理解也无法解释了。

为什么要把参数搞这么大呢?简单地说,就是因为自然界最聪明的机器——人脑也是这样的。

我们知道,人脑主要是由神经元细胞组成的,一个神经元大概长成这样:

Image

除了绿色的细胞核部分,左边很多树枝似的叫树突,负责接收其他神经元的信号,右边长长的叫轴突,负责输出信号给其他神经元。这些突起之间通过突触传递信息。人脑大约有1000亿左右这样的神经元,100万亿个突触。就是这么简单的结构,一旦它们形成了一个复杂网络,就使我们每个人变得这么聪明,能学会很多东西,能产生感情,能思考,有自我意识,还能彼此合作……

现在最先进的人工智能系统(以ChatGPT和GPT-4为代表)和人脑类似,也是由许多人工神经元组成的。人工智能模拟人类的神经元,抽象成数学表达,就是下面这张图。有x输入(变量),w神经(参数),b神经元,a输出(输出也可以很多个)。大家看,是不是很像上面的大脑里的神经元?

Image

先进的人工智能系统也是用很多很多这样简单的人工神经元组成的,当然里面细节非常多,有很高深的数学和计算机知识。

具体长什么样呢?ChatGPT和GPT-4都没有论文,找不到很直观的比较详细的架构图。我们用2012年的ResNet的图来感受一下。ResNet有152层,几十万神经元,总参数是6000多万。

Image

这个分层示意图上的数字表示这一层上神经元的数量,比如最右边的1000、2048等。有些层上的数字比较小,需要将数字相乘,所以有些层神经元是上万的。

大家不要小看ResNet,这是我们中国人在这十几年人工智能领域最高成就,也是全世界都认可的,论文引用数已经接近16万了,非常恐怖的数字。2012年,当时在微软亚洲研究院的孙剑老师(去年不幸英年早逝,非常非常可惜)带着何恺明、张祥雨、任少卿一起,通过ResNet,第一次将计算机视觉的水平提升到超过了人类。

而2020年,第一个大模型GPT-3诞生,最近GPT-4出来,把语言甚至某种意义上把通用智能都攻克了。

GPT-3有几十亿个神经元,一共有1750亿个参数。参数和人脑的突触是对应的,所以GPT-3大致相当于人类大脑的千分之一水平。GPT-4的参数量没有公布,但从OpenAI负责人在此前采访的口气来看,很可能没有数量级的提升,更多是在原来规模上优化。

这是因为,千亿规模的大模型,潜力仍然还没有挖尽。那什么叫大模型呢?

2.  小模型与大模型

大家可能不知道,原来搞AI的专业工作者其实分工非常细的。甚至早几年大家一般不说我是搞人工智能的,而会说我是搞NLP(语言)、视觉、语音、机器学习的,比较新的结合商业需求又出来推荐系统、广告、调度、自动驾驶等等。而且往往还能分得更细,比如语言里有机器翻译、阅读理解、问答、文字生成……,就好像语文考试里面的不同题型,每种题型就是一门学科。

为什么分得这么细,因为具体做法都不太一样。简单地说,大家都在训练各种小的专用模型,而且模型规模都不大,几千万、几亿参数就了不起了。所以从现在来看都是小模型。

而大模型呢?GPT全名叫Generative PreTraining(中文意为生成式预训练,这是OpenAI自己的称法,而不是媒体更喜欢说的Generative Pretrained Transformer,那是Google的BERT论文里搞错了,才这么叫开的)。

第一代GPT是2018年6月发布的,参数量是1.17亿。

2019年2月升级为GPT-2,和同代Google搞的BERT都是10亿级参数的模型。

而2020年5月,GPT-3一下子干到了1000亿这级别上,提升了两个数量级。这是人类历史上第一个这么大规模的人工神经网络,也就是现在已经比较常见的“大模型”。

此外,还在网页(WebGPT)、图片(ImageGPT、DALL·E)、代码(CodeX)、音乐(Jukebox)、语音(Whisper)等方面也做了很多工作。

GPT系列论文的思路非常一致,就是尽量选择简单的架构,用更多高质量的数据、更多的算力训练出更大规模的模型,而且各个环节尽量减少人工干预。目的只有一个,模型能像人脑一样,更加通用,完成各种任务。到了GPT-3这个千亿模型,这个想法基本上实现了。

而现在ChatGPT、GPT-4这种更新的大模型出来,效果更是惊人,AI似乎什么语言任务都会了,而且理解和生成能力都特别强。GPT-4在主要人类识别人才的许多考试都能考到优等生的水平。

大模型为什么这么神奇?首先是我们前面讲到的,它和人类大脑的原理类似。更有意思的是,研究发现,大模型和小模型相比,真的有一些突变。



3.  大模型的突现能力

GPT-3和其他大模match型出现后,研究人员对比之前的小模型,发现有神奇的事情发生了,大模型突现出一些此前从未出现过的能力。

比如你让它做一个复杂的数学题,一开始它会给出一个错误答案。然后你可以说:错了,再仔细想想、一步一步来。咦,你发现它马上就改成按步骤来算,就算对了。这种能力骄傲思维链。

有研究人员总结出100多种这类能力。请注意,在10亿以及小几百亿参数的小模型里,是没有这种能力的,只有大几百亿的大模型才会出现。

所以,大模型真的有点像动物进化,我们知道鱼会游泳,鸟会游泳,狗的嗅觉很灵,猎豹跑得很快超级敏捷,但它们的大脑是没那么聪明的,远不如灵长类。这就是小模型和大模型的区别。神经元的数量还是极其关键的。

03

第三个角度:ChatGPT=AI时代的操作系统

如果说前两个角度分别是从用户和技术角度来看ChatGPT的话,我们接下来要从产业角度进行分析。

大家都知道之前信息产业最核心的部分一直是操作系统,PC时代是Windows,移动时代是iOS和Android。而且操作系统天然具有垄断性。芯片也很重要,但芯片相对被动,这也是为什么移动时代并没有出现统治性芯片公司的原因。

ChatGPT加上大模型不仅提供了交互界面,还提供了通用能力。而界面+通用能力,就构成了操作系统。

操作系统意味着什么?它不仅提供用户入口,而且所有的计算资源都是由它来管理。更可怕的是:过去的操作系统还不是智能的,ChatGPT是智能的操作系统,它会越变越强,可能具有终极性。

ChatGPT将是AI时代的操作系统,影响非常巨大。

我们中国是没有干成过操作系统的,操作系统一直在美国人手里。这一波如果不赶上,将错失AI时代操作系统。ChatGPT已经明确不对中国开放,未来再这样发展五年、十年,我们有可能成为一个相对低智能的社会。

在科学史上也有GPT这么一个缩写,正好是另一个解释:General Purpose Technology,也就是通用技术。比如电力、蒸汽机、电脑、互联网……它们都是通用技术。它们的出现影响了各行各业,本身还能持续改进,会发展出更多与之匹配的互补性技术,引发连锁创新。

我们都知道之前的通用技术带来了怎样的巨大影响。

机遇和挑战同在,我希望中国更多的有识之士、有能力的人,投身于这个方向,拥抱新时代。

作者 | 刘江老师
文字整理 | 牛哥
编辑|雷锋哥
场地合作| 氪空间学院8号创新中心
礼品赞助|本来生活李敏 美团 袋鼠团建

原文链接:http://www.360doc.com/content/23/0503/20/1079109397_1079109397.shtml

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部