以概念跨学科定义法的视角来看,今天的人工智能技术并不是去模仿人类所有的智能,而主要是模仿通过大量数据归纳(在人工智能的术语里变成“训练”)的经验知识形成过程。即使其中的所谓“推理”,也只是以经验知识为基础的、很容易犯“经验主义错误”性质的推理。
一、中国大模型的现状
宇视的梧桐人工智能系统发布有一个月了,上个周末参观在北京的安博会,深入了解了梧桐系统。 可以说,自从Chat GPT火爆全网,我对此是抱持冷静态度的。 宇视的梧桐系统使我看到有效应用这种技术的一些正确路径。 简单来讲,从应用上看是“专业”,而不是“通用”; 从技术上来说是“大模型”,而不是“通用人工智能”(AGI)。
2023安博会上霸屏的宇视科技
目前中国可以说进入“千模大战”的阶段,以下是转引自智东西的中国大模型发布统计。
参见: “千模大战”100天: 六路玩家围攻ChatGPT, 李水青,智东西, 2023-05-29 19:55 发表于湖北
另外,华为大模型最早于2020年11月在华为云内部立项成功,2021年4月对外发布,2022年4月,其升级到2.0版本。目前,其AI 大模型中的 NLP 大模型、CV 大模型以及科学计算大模型(气象大模型)均已被标记为即将上线状态。对于网上传说其大模型名称为“盘古”,华为并未予以证实。
需要特别提示一下的是:北京智源人工智能研究院,早在2020年10月已启动了AI大模型“悟道”项目,并先后于2021年6月1日发布了悟道大模型1.0,2021年6月1日 发布了2.0两个版本。其中悟道2.0官方公布的参数规模达到1.7万亿。彼时,OpenAI公布1750亿参数的GPT-3模型也才一年时间。即使在国外,这一轮大模型也还没火爆起来。ChatGPT在国外也是在2022年底才开始大爆发的。智源在国内算是搞大模型比较早的。单从其技术状态看似乎是很好的,但在国内却比较沉寂。原因在于其没有找到很好的应用。ChatGPT与其说是技术的成功,不如说是找到了一个很适合的应用,就是对信息准确性和可靠性要求不高的聊天类应用。
ChatGPT是OpenAI自己创新性的应用吗? 不是。 在 ChatGPT 之前,以GPT-3为技术基础的生成式人工智能是由创新公司Jasper发明的。 它的产品可以基于一个简单的短语或提示,创建出数百个单词的文本,在媒体工作者和营销人员之间大受欢迎。 Jasper成立于2022 年 1 月,初期人员只有 9 人,但仅仅到10 月份就扩大到 160 多名。 因为其采用收费模式,当年的营收就预计能达到 6000 万美元。 资本市场对 Jasper 的欢迎火爆异常,2022 年 10 月,Jasper在成立仅仅10个月内就以15亿美元的公司估值融资 1.25 亿美元。 然而,仅仅 在Jasper完成融资1个月后的11月30日,OpenAI 公司自己的ChatGPT发布,并且采用免费模式。 显然,以Jasper产品为基础改进一下,并且是在自己的核心技术平台上,当然产品会好一些,再加上免费,Jasper瞬间就从天堂跌落到地狱。 因为Jasper的产品是基于OpenAI的GPT-3版本,这就是为什么ChatGPT会基于GPT-3.5的原因所在——总得做做样子显得比对手更牛嘛。 所以,不要以为ChatGPT创造了一种全新的突破性的产品应用,它是抄袭真正创新的Jasper公司产品的结果。 这也从另外一个角度反映了当下中国自己掌握核心技术的重要性。
我有些疑惑,今天这个时候市场格局远未确定。如果2021年6月1日就发布了的智源悟道2.0有1.7万亿参数规模,为什么不推出自己的聊天产品呢?
二、专业与通用
为什么这几年我在业界很多火爆的概念炒作时,总是先来泼一些凉水?因为我见过的IT业概念炒作的历史太长、见过的太多了。很多概念炒作时,不仅是媒体,连很多业界内部的技术人员都被搞迷糊了。在元宇宙概念热炒时,我在2021年11月23日发了一篇文章:资深IT人详解什么是“元宇宙”——细说历史上那些“什么都不是”的概念。现在元宇宙概念热度基本消散了。我不能说这个火是就我浇灭的,但这篇文章的确在业界引起了很大反响。袁岚峰老师还专门以这篇文章为基础做了一期视频节目。今年初ChatGPT刚开始在国内火爆时,我也在2023年2月23日写了一篇文章:网上最权威的人工智能分析。当时国内太多人在大谈通用人工智能要超过人类了,通用人工智能会统治一切等等。但在概念炒作暴热的时候,往往会使人们忘掉一些简单至极的规律。
以上是福布斯发布的AI 50强国外公司的列表。我们眼里不要只有ChatGPT,尤其是从事这个行业的专业人士。以上相对较为成功的人工智能公司的产品很多都是面向可靠性要求不高的聊天、文案、绘画、合成视频、协助进行细胞基因研发等类型的应用。
无论通用性的产品发展到什么程度,采用相同的资源去集中于专业的某个领域,在其他技术水平相同情况下,肯定是专业的产品在这个专业领域更加出色嘛。人工智能概念发展的历史非常长,但真正获得实际应用的并不多。我在“网上最权威的人工智能分析”一文中指出了其关键原因所在:因为人工智能本质就是一个基于概率的判决系统。因此,它的可靠性是很难达到极高水平的。另外,解决任何技术问题必须要基于有限的前提,而不能提出一个无边界、复杂性可能会无限增加的问题。这样的问题是不可解的。解决任何问题的前提是能够有效地简化问题。相对来说,智能交通、人脸识别等应用相对较为成功。因为这类对象的识别是可以有约束前提的。车辆的车牌本身相对是规范的。人脸识别软件运行时,可以显示一个人头的虚框,使人脸相对有规矩地处于最有利识别的位置。
人脸识别的差错率市场上产品的平均水平在万分之1的水平。也有些公司宣称能达到百万分之1,但一定要给出实现这种识别率的条件。如果实验室理想条件下实现这种识别率是没多大意义的。
直到今天,语音识别等依然很难说应用得很顺畅。其原因就在于很难像人脸识别那样,简单地通过虚框来建立一种规范语音输入的方法。如果说话很规范、背景杂音很小,识别率还可以。但如果背景稍微吵杂一些,语速或停顿不规律、说话不规范(如夹杂很多重复和多余发音),识别率就会显著下降。而我们又不能说先把人们都培养成播音员的说话习惯,再来应用语音识别软件。因此,为了降低背景杂音的影响,说话时要尽量离麦克风近一点。另外想好了再说,语速要稳定,尽量不要有停顿、反复和多余的杂字(如:啊…、这个这个、嗯…等等)。
对于很多应用、尤其是工业应用来说,其差错率可能需要控制在百万(6个9)甚至千万分之1(7个9)以下的水平才有可能真正商用。例如城区道路的自动驾驶等应用就是如此,仅仅秀一下是没用的,其可靠性可能要实现8个甚至9个9人们才有可能真正接受并真正商用化。对目前的人工智能技术,从原理上来说就困难到几乎是不可能的程度。
宇视科技从一开始就是从事智能交通产品研发,因此也就从一开始选择了最适合的人工智能应用领域。目前的大模型技术,更准确地说只是一种更深入的神经网络算法,而不要理解成本身就是通用人工智能。专业还是通用,只是一种应用方向的差异,不是技术本身天然决定的。
智能交通为什么可以取得很好的应用效果?原因在于现阶段的人工智能已经可以有相当高可靠性实现车辆信息的识别(结构化,就是识别出车辆的车牌号,车辆颜色、车型等)。这些信息人工智能识别并不是绝对准确的,有一定的识别误差,目前水平大致在千分之1 到百分之1的水平。但这个可以通过与交通部门储存在数据库里的车辆信息进行比对来进行多维度的复核,以此大大减少误差。例如,可能车牌中最后一个数字识别错了(计算机并不知识道究竟是哪一位错误),但通过车辆颜色、车型等信息的交叉比对,有可能很容易把识别错误的那一位数字纠正过来。也可通过该车辆在不同位置的误别结果进行比对,纠正出现识别差错的数字。这就是通过不同信息来源复核提升可靠性的方法。这种方法在专业领域会去不同程度地采用,而在Chat GPT等聊天类应用中是很难采用的。这就是它们的可靠性普遍不高的原因所在。
三、大模型给专业领域带来的好处
我们很关心的一个问题是:大模型是否只是适合于可靠性要求不高的领域?对于行业应用能带来更多价值吗?事实上,宇视的梧桐并不是简单地直接以GPT这类大模型为基础,而是以Meta(原来的Facebook)开源的、更专注于图像与视频的CV(Computer Vision,计算机视觉)通用大模型为基础开发的。这个说是通用,事实上已经针对视觉信息进行专业性地强化了。以这个CV通用大模型为基础进行大量针对性的裁减、优化,加上针对性的行业场景和训练调优,就进一步专业化,变成针对行业的通用大模型。
由此带来的好处是什么呢?
工作简化。原来的小模型人工智能技术针对全新的车辆(如机场内的各种车辆)需要专门进行训练,但新的行业大模型可以不需要这个过程。这使得很多合作伙伴都可以自己进行更进一步应用场景的专业训练优化,以提升最终应用场景里的识别率和可靠性。
智能交通视频这种特定应用的人工智能算力是有严格限制的,因为摄像头里不可能安装算力太高的芯片。因此,结合了大模型的技术不是全面替代,而是与原有的小模型AI共同起作用来最有效地解决问题。摄像头里还是采用小模型算法进行结构化,而在云端结合进大模型的应用。
结合了通用行业大模型以后,可以很容易适应更多应用场景,云端的算法效率也会有显著提升。因为对原始的CV大模型中不需要的参数进行了大幅度的裁减优化,因此所需要的算力也比原始的CV大模型大幅度地减少。
以上应用的方式是值得其他人工智能开发者参考的。不要被业界炒作的概念所误导,一定要针对自己的应用选择最优化的技术路径。别人炒作参数数量、算力,那是有人家的目的。需要的算力越大,当然英伟达的芯片就卖得越多嘛。但如果你不是经营AI芯片生意的,就别被这种概念炒作忽悠了。
用最小的资源实现自己真正的目的,这才是最体现人类智能的行为。而不是去简单地展示自己用到的资源有多大,只是为“显得更牛气”。
越是在人工智能大行其道的时代,越需要提升人类自己的智能。
四、通用人工智能的问题及人类智能研究
这里我们再对通用人工智能作一下分析,并且与人类智能进行一下比较。
以下是我应用百度文心一言的案例刨析。
找不到数据。
这个27309亿千瓦时的发电量是所有技术的发电量,而不是光伏的。全国每年所有技术的发电量总和才8万多亿度,1到4月怎么可能光伏的发电量就达到2.7万亿度呢?这个是对中国电力行业稍有些基本常识的人一眼就可看出错误的。
前后自相矛盾的数据。
必应的CHATBOT AI回复的结果,因为它们只训练了2021年前的数据,所以就查询2020年5月的光伏发电量,但这个结果明摆着相差太远了,它居然还一本正经地说是国家能源局这个权威渠道发布的数据。
文心一言的回答结果:2020年5月中国光伏发电量数据为132.79亿千瓦时,这个数据是正确的。
所以,为什么我对这类通用人工智能不太放心,因为查到结果后无法确认它的可靠性。 虽然直接从网上查到的信息也不能简单确认其可靠性的,但至少我可以通过反复比较不同数据来源,以此确认哪个数据是更为可靠的。 我们以一个地理信息数据的查询为例来说明这一点 —— 中国华山最高峰的海拔高度。 下面是从文心一言查询的结果。
如果直接从网上查会有两个相差很小的数据,一个是上面的2160.5米,另一个是2154.90米,两者仅相差5.6米。 这两个数据都传播很广,很难直接区分谁对谁错。 但有一个很简单的方法来进行确认,就是查一下华山南峰的照片来看看。
这个照片的上传时间是2022年12月29日
从这个照片上面可看到,华山南峰的峰顶是有一块2007年4月树立的石碑,上面清楚明白地写着华山南峰海拨高度为2154.90米,并且这个数据是明确有陕西省测绘局、陕西省建设厅、国家测绘局、建设部和国务院等大量中国最权威机构背书的“重要地理信息数据”,显然它更可接受。 此时理论上说我们可能还可以有一些质疑的空间,例如: 这只是华山南峰顶上的一块石碑,并不是陕西省测绘局、陕西省建设厅、国家测绘局、建设部和国务院的官方渠道第一手数据来源,所以它的可靠性并不是最高的。 另外从纯粹质疑的角度,有人可能会问这个照片是不是PS的。 这类纯粹质疑性的疑问不能说没道理,但对第一个质疑,毕竟像华山这样中国最知名风景区里最引人瞩目的风景点上树立的权威性地理信息数据标志,如果它有错误的话,以上背书的相关机构早就会出来更正了。 二是通过多个照片的数据来源可以确认,还没发现与以上照片不一样的其他照片,所以第二类的质疑就没有任何证据支持了。 要从以上权威机构的官方渠道去查华山南峰的海拔高度第一手数据一般是极为困难的,因此从华山南峰的峰顶这个重要地理信息数据石碑来确认就非常简单明了,并且其权威性几乎与查第一手来源的数据非常接近。
那么2160.5米的数据最初是怎么来的呢?是不是加上这个石碑后变成2160.5米了。那我们再查一个有参考高度的,比如有人在旁边的照片。
一对比就知道,这个石碑明显还比不上一位女士的身高,它的高度最多也就一米多,不可能带来5.6米的增高。 从测绘学(也就是地理测量学)角度说,2154.90米的数据就是对这个石碑底座处的山体进行海拔高度测量获得的。 为什么是表达成2154.90米,就是仅从这个数据本身看的话,表明它的测量误差是小于正负0.005米(5毫米)
坦率地说,我一时还真没查到2160.5米的数据是怎么来的。尤其是一些旅游网站上,明明编辑自己上传的照片(比如前一张南峰的照片)就是2154.90米,但在文字介绍中却写着2160.8米。与2160.5米有更细微的0.3米的偏差。这种自己和自己的数据都不一致就表明:编辑者本人并未认真确认这个数据。
至少有一点,2160.5米的数据表达,仅从数据本身就可知道其对应的测量误差为正负0.05米,也就是5厘米。 这个技术水平低于2007年4月立碑时的地理测量技术水平一个数量级。 从统一测量学角度来看,单纯从它们数据表达本身的科学性上说就不如2154.90米。
以上分析并不是说我们最终就一定绝对接受了2154.90米这个数据,而只是要说明一些对人工智能研究来说很重要的问题。我在作以上分析时,人们有没有发现一个事实:人类的智能是怎么来思考问题的?并不是简单依靠巨大的语料或信息源数量解决问题,而是靠逻辑;对不同的信息不是靠概率去进行判决,而是靠信息的质量;不是单一的某个模型,无论它是大模型还是小模型,而是靠“跨模型”的多种不同维度,不同思路,不同侧面,不同信息来源,不同信息种类(尤其是与提前储存的精确可靠数据进行交叉确认),不同科学知识框架的思维交叉对比、反复确认。人类的思维本身从单一角度来说是不太可靠的,网上出现的大量错误信息都是人类的错误,而极少是纯粹由机器导致的错误。但人类之所以利用本身并不可靠的神经元,却有可能获得极高可靠性的思维结果,采用的就是逻辑、信息质量、跨模型的复核,以此获得可靠性的提升。如果一条路难以确认,就增加走另一条路试试。
希望以上思维研究的结论可以给人工智能研究者一定的启发。人类的智能是寻求以尽可能少的算力需求去得到最可靠的结果,而不是简单追求算法的暴力美学。
人工智能交通视频与人脸识别之所以获得成功的应用,不仅因为它们本身的识别率相对较高,有一定规范性,还因为它们都可以与单纯人工智能识别之外的其他途径信息进行交叉比对。除了前面所说车牌信息与车辆颜色、型号等与车辆所数据库里的信息进行交叉比对以外,如果再与移动运营商的车主手机位置进行交叉比对,识别率就更高。人脸识别也可以与已经存储在数据库里的身份数据,如姓名,性别,身份证号等进行交叉比对。这些都会使最终的识别率在人工智能本身识别率基础上获得实质性的极大提升。而诸如语音识别的结果,就只能人工进行检查排错,没有预存数据库之类高度准确信息的交叉比对。
五、国外通用人工智能的大坑
ChatGPT在国外是免费的,但如果想在国内使用,需要通过各种“渠道”代理,并且是收费的。下面是几个渠道的收费页面。
这种收费模式虽然是互联网上常见的,但永久会员与月、季、年会员费如此之接近,难免会让人产生一个判断: 这完全不是一种长久的服务模式,就是鼓励用户赶快交永久会员的费用。 把它吹得那么神,而后鼓励中国用户交钱注册永久会员,难免有割韭菜嫌疑。 这也是我为什么会在国外火爆的技术概念传到国内时,往往总是先泼些凉水的更重要原因所在。
六、对通用人工智能的评测问题
随着现在通用人工智能概念的火爆,各种如何评测其技术水平的方法研究也不断出现。例如有个所谓“蜜熊测试”的方法(参见:蜜熊测试:5分钟感受大模型“实力指数”,西装和帽衫,西装和帽衫,2023-03-20 07:01 发表于新加坡)。很显然,这个不是系统全面的专业评测,而是一个简化评测的方法。“蜜熊测试”有八个问题。题目非常简单,不过覆盖了数学、生活常识、逻辑、互联网梗、电商等几个领域:
1. 一头熊一天吃14罐蜂蜜,请问它一年吃多少罐蜂蜜?
2. 一头熊一天吃14罐蜂蜜,请问它闰年吃多少罐蜂蜜?’
3. 这头熊要去出差了,它要屯一点蜂蜜,请问蜂蜜怎么保存最好?
4. 请画一张小熊吃蜂蜜的 ascii art 图片?
5. 如果我在野外,背包里有一罐蜂蜜,被熊闻到了,我可以把蜂蜜给熊来求生吗?
6. 一只熊抱着一罐蜂蜜从一个点出发,向南走一公里,再向东走一公里,再向北走一公里,正好又回到了起点,请问:这只熊是什么颜色的?
7. 熊最近迷上了网购。请问有什么好的蜂蜜品牌推荐吗?
8. 谢谢你回答上面的这一系列问题。
在进行这种评测的同时,还有一个“涌现”的概念来对不同通用人工智能进行质的区别。
参见,看百度文心一言实力,再聊ChatGPT触类旁通的学习能力如何而来?, 亲爱的数据 亲爱的数据 2023-03-21 12:10 发表于北京。
进行这样的区别意味着什么?当然就会暗示不同的通用人工智能产品有本质差异嘛——有些是已经涌现了,而有些还没有涌现。如果只是一些量的差异,只要在量上不断改进就可趋同或超越,而如果是质的差别,就可能很长时间超越不了。尤其是当前国内受到英伟达最高算力的H100芯片禁运情况下,会让人们感觉国内根本没有可能实现“涌现”的通用人工智能。
所以最顶级专业的人士不是看图,而是看其可靠性数据指标——本质上就决定了它们都不可能太高。不是“涌现”,而是会无限地趋近并停滞在99.9%到99.99%这个水平上。
另外,对业界所称的“大模型”这一概念也需要最深入地保持冷静。就像曾经热炒的“大数据”概念一样。数据“大”到什么程度才算“大数据”,大到这种程度有什么本质不同吗?大数据发展到现在的历史其实已经极为充分地证明了:计算机发展的历史主要就是量的差异。如果有什么本质的不同,只会是针对特定应用来说的。例如视频,每增加一倍扫线,相同编码标准的计算能力大致需要增加4倍,所以在过去摩尔定律一直有效的时代,每过3年视频扫线就可增加一倍。但从普遍的意义上来说,正如没有什么确切的理论依据可以表明大数据大到什么程度就会出现本质性的变化一样,也并没有什么确切的理论依据可以表明参数多到什么程度就会出现“涌现”这个说法。人工智能技术的本质区别的确会体现在算法和算力上。这次的人工智能爆发一方面是算力的不断提升,另一个是Trasformer这个新算法的进步。它是CNN(神经网络)带来的深度学习算法之后又一次小的算法革命(本质上还是神经网络)。只要利用了这种新的算法,只有量的区别,不会有什么“涌现”“不涌现”的本质区别。
搞核心硬件、尤其是拥有最领先核心硬件的企业,当然希望整个业界都陷在争先恐后的模型参数“越大越好”,从而需要尽可能更大算力的思维陷阱里了。
七、通用人工智能是有“价值观”的
另外,计算机本身是一个可靠性极高的机器,如果将它完全建立在以人类制造的、有大量错误或偏差的语料信息基础之上,这是不是搞反了?用那么多极高可靠性的计算能力,却制造了极不可靠的思维结果。并不是说语料输入的越多,参数越多,人工智能的水平就越高。如果多增加一些垃圾语料,它只会将前面已经训练结果质量降低,而不是增加。因为语料是人类制造,本身是不可靠的,所以有一个工作就是需要对数据先进行清洗,把质量低劣的人类制造的数据剔除出去。但这个数据清洗结果如何,就取决于做清洗工作的人如何选择了。这个选择标准,就可能带有“价值观”偏向。所以,打着通用人工智能旗号的内容生成式人工智能AIGC是有价值观的。其实,就连最单纯的搜索平台,虽然只是给出其他网站的页面结果,但仅通过排序的不同,也可以体现出价值观或商业偏向,所以才可以有竞价排名的商业模式。
福布斯发布AI 50榜单:最有前途的人工智能公司
原文链接:https://www.163.com/dy/article/I77E025G0519K6FO.html