扎根行业,没有发布“盘古Chat”。
作者|涂明 朱悦
编辑|赵健
封面|《霍比特人3:五军之战》
“百模大战”又添一员!
据不完全统计,在短短七个月时间内,全球“有名有姓”的大模型便已多达数百个,仅在中国就有至少80个。而在今天,“百模大战”中又有一支强军涌现——在华为开发者大会2023上,华为云发布了盘古大模型3.0。
过去半年,华为在燥热的大模型市场显得异常低调。虽然早在2021年4月,盘古大模型1.0就已经发布,早于今天大部分的大模型。但是,当ChatGPT掀起的大模型热席卷全球时,与百度、阿里等大厂相比,华为的声量要小的多。
似乎是为了解释此前的“低调”,也似乎是为了喊话眼下“琴棋书画诗文”俱全的AI应用现状。今天,华为常务董事、华为云CEO张平安明确喊出了盘古大模型的价值观:“不作诗,只做事。”
“不作诗”表明华为不会推出类似ChatGPT、百度文心一言、阿里通义千问等面向C端用户的聊天机器人产品,而“只做事”意味着盘古大模型把重心放在了B端行业大模型的落地上。
盘古大模型All in B端市场,这一判断也与ChatGPT的市场走势形成了对比。今年6月,ChatGPT的全球流量环比下滑了10%,意味着人们对于聊天机器人产品的兴趣正在降低,相比之下,to B市场还是一片蓝海。
华为本身就是做企业市场起家,对于服务企业用户有更为丰富的经验。
虽然表面看起来华为云是各大云厂商中对大模型的反应最慢的一家,但实际上盘古大模型已经在政务、金融、制造、煤矿、铁路、制药、气象等十几个行业的数百个场景落地,在国内云厂商中独树一帜。同时,与盘古大模型3.0一同上线的,还有华为云昇腾AI云服务。
大模型普遍被云厂商看作是下一个重要的增长点。根据IDC数据,华为云2022年在国内的市场份额位居第二,仅次于阿里云之后。而在行业市场的充分布局,有望让华为云进一步抢占市场。
这场关于AI的云端战争,已经正式打响了。
盘古大模型3.0都包含什么?据张平安介绍,这是一个涵盖三级体系的“大家伙”。
三级体系是华为在2022年4月提出的概念,即基础大模型L0、行业大模型L1,以及场景大模型L2。三者层层递进,从通用能力逐渐向各个垂直领域演进,由此“重塑行业”,支撑起华为“AI for industries”的宏大目标。
具体而言,盘古大模型在L0层面包含五大基础大模型,分别是语音语义大模型(NLP)、视觉大模型(CV)、科学计算大模型、多模态大模型和图网络大模型。
其中,盘古NLP大模型是业界首个千亿参数的中文预训练大模型,首次使用了Encoder-Decoder架构(与谷歌T5相同),可以让大模型兼具语言的理解与生成两种能力。盘古NLP大模型由华为云和循环智能联合开发,由鹏城实验室提供算力支持。
CV大模型参数量为30亿,是业界首次实现按需抽取的模型;科学计算大模型主要解决各种科学问题,拥有湍流模拟、天气预报、自然灾害预警等多种能力;多模态大模型则具备图像和文本的跨模态理解、检索与生成能力;图网络大模型主要解决数据异质化问题,华为首创了图网络融合技术,极大拓展了大模型的泛化能力,让一个模型能够应用于多个任务。
在L0基础大模型底座之上,华为结合行业数据进一步训练,就是L1行业大模型。去年11月,华为云首次公布了在矿山、气象、药物大分子、金融等四个领域的行业大模型;L2则是在L1行业大模型基础上,更进一步深入细分场景的推理模型,比如金融领域的金融违约风险识别模型、柜台工作人员工作流程指导模型等。
在今天发布的盘古大模型3.0中,NLP大模型和多模态大模型得到了两个重磅升级,其余三大模型将从这些进步中获益。
第一个升级发生在NLP大模型上。过去,大模型领域弥漫着一种“参数量至上”的评价氛围,大厂之间的大模型参数量从数千万迅速“卷”上了千亿级别。张平安表示,其实对大模型而言,参数量的大小并不是最佳评价标准,如何用好参数、让大模型运行地更稳定、对行业适应性更强,才更值得关注。
因此,在盘古大模型3.0中,华为在原有的千亿级参数NLP模型外,还发布了710亿、380亿、100亿等多种参数级别的模型。张平安表示,“华为的AI管道里跑了几十款模型,之所以提供这么多不同参数的模型,是因为要考虑到不同行业、不同应用场景下中,客户对大模型的不同需求。核心是用最低的算力消耗,实现最匹配的解决效果”。
第二个升级则是“将大模型分为‘Data’、‘Foundation’和‘Capability’三层,彼此间相互解耦”。
据张平安介绍,Data指数据层,华为单独为所有大模型设计了一个训练数据池,Foundation层即基础层,是不同参数大模型之间的差异,而Capability是能力层,各个大模型之间的能力层要做到一致,即“所有大模型共用一个能力集”。张平安强调,“能力集是一个全新的设置”。
他举了个例子,比如多模态大模型的能力集包括图像生成、图像理解等。能力集共用以后,一方面,这些能力集“可以直接被客户调用”,另一方面“科学计算大模型、视觉大模型等也可以直接调用多模态大模型的能力”。
对于这一点改变,张平安表示,数据层解耦后,“每次训练都可以明确调用的是哪些数据”,这有利于数据安全,并能解释不同模型能力的区别。基础层和能力层的解耦更重要,“基础层和能力层解耦以后,你不管用什么参数级别、基础类型的大模型,300亿也好,1000亿也好,多模态也好,科学计算也好,在能力上完全一致。”
Foundation和Capability为什么一定要解耦?这种变化的威力有多大?
张平安认为,将能力集独立出来,做到完全解耦,是让大模型配适不同场景所必须的一步。而在这种变化的基础上,华为盘古大模型成功从“小作坊”的生产模式进入到“工业化”时代,盘古大模型因此有能力“重塑千行百业”。
L0层面的变化,带来了L1层面的跃进。
在盘古大模型3.0发布会上,张平安和华为云EI服务产品部部长尤鹏一起展示了盘古大模型应用在矿山、铁路、气象、金融、制造、编程、视频等七个行业领域时的威力。
比如在矿山行业,盘古大模型的能力是实现矿洞的无人巡检、远程作业。
在矿山作业危险度极高,由于矿洞中光线昏暗、浮尘密布、视野限制较大,摄像头能发挥的作用不大,所以矿山中的巡视检查工作一般都要由人工来完成。而通过盘古透尘大模型与视觉大模型,工作人员不用下井就能够轻易识别井下情况,实现远程操作。
目前,华为在矿山领域已经与山东能源集团及其技术公司云鼎科技达成深度合作,双方共同开发了21个场景化应用,覆盖了7大业务系统,在全国的8个矿井里做到了规模化使用,能够覆盖煤矿采、掘、运通、洗等全流程下的1000多个细分场景。
还有铁路领域,盘古大模型的能力是助力货车完成安全检测。
据张平安介绍,中国总共拥有超过100万辆货车,每年跑在铁路上的货物高达将近五十亿吨。为保证这些货车的安全,传统的做法是在轨道旁边安装高速摄像机,火车经过时对其底部进行高速摄影,拍摄图片送到检测员手中,人工识别可能的故障点。
这是一套工作量极大且不甚可靠的工作方法。张平安做过统计,一个交通枢纽假如每天要过站1000辆货车,则需要采集的照片数量为400万张。这些工作需要260个有经验的检测员四班倒才能完成。
而应用盘古视觉大模型之后,一双盘古眼就能看完所有的图片,由盘古进行初筛,初筛之后再由检测员确认具体的危险。据统计,盘古大模型可以将400万张照片筛至20万张照片,筛除率高达95%,且故障的检测漏检率为0,能将检测效率提升20倍,极大降低人工工作负担。
类似的例子还有很多,比如气象预测领域,传统的预测方法要占用3000台服务器,计算4~5小时才能完成,而盘古大模型只需要在单台机器上工作10秒,张平安透露,盘古气象预测模型的结构已经成为欧洲气象局的参考之一。昨天(7月6日),盘古云气象大模型的相关论文还登在了国际顶级学术期刊《Nature》上。
在金融行业,华为与中国工商银行合作打造金融大模型,帮助优化员工工作流程。工行在全国有4万个网点、20万+员工,应用华为大模型后,单次业务办理流程能从5环降低为1环,单次结算时间减少5分钟;在制造业,盘古大模型已经走进华为的制造生产线,其天筹集求解器已经被用于帮助华为设计排产计划,排产工作的耗时从三小时排一天计划,缩短到1分钟排出未来三天计划。在视频领域,盘古大模型可以用三分钟完成过去三个人花三天才能完成的工作量。
据华为云人工智能首席科学家田奇介绍,在过去几年,华为云人工智能项目已经应用超过1000个项目中,其中30%用在客户的核心生产系统里,平均可以推动客户盈利能力提升18%。张平安对此很骄傲,在华为开发者大会上多次呼吁,“让我们为盘古大模型鼓个掌。”
张平安表示,“很多大模型,表现看起来都很好,会写诗、会画画、会讲故事,华为不一样,华为的盘古大模型不会作诗,只会做事”,他强调了华为的AI for Industries战略,“盘古大模型是要扎根行业的,它要下矿坑、测台风,没时间作诗”。
华为云盘古大模型的创新力来自什么?
张平安提到,一方面来自大模型自身模型的创新,另外一方面来自坚实的AI堆栈,即AI根技术。AI根技术包括底层算力、AI计算框架、AI开发平台、AI工程平台等。如果没有成熟的AI根技术,大模型也很难发挥出出色的价值。
对于底层算力,英伟达的GPU芯片是训练大模型的最佳载体。但由于芯片禁令,华为是无法使用业内最成熟的GPU与配套软件的。因此,华为只能依靠自研的芯片。
在算力层,华为构建了“鲲鹏CPU+昇腾GPU”为基础的昇腾AI云算力底座。在训练千亿参数的盘古大模型时,华为调用了超过2000块的昇腾910,进行了超过2个月的训练。
基于昇腾AI云算力底座,华为云有“CANN+MindSpore”的AI框架。CANN作为华为针对AI场景推出的异构计算架构,向上支持多种AI框架,向下服务AI处理器与编程,而MindSpore作为全场景AI计算框架,实现端边云全场景灵活部署,以及一站式开发平台ModelArts,完成对计算、通信、存储和算法多方面的优化。
通过这样深度的AI堆栈,华为云可以为盘古提供坚实可靠的AI基础。如果需要更大的大模型集群系统,还可以在通信方面进行深度优化。
张平安还表示,虽然无法使用业内最先进的大模型,但在AI昇腾云算力的基础上,它的效能不仅不落后,而且还达到了目前业界主流GPU的1.1倍。
盘古的快速迭代和更新离不开昇腾AI云的支持。而华为云不仅向行业输出大模型,现在也可以向行业输出训练大模型的AI服务了。
就像微软与OpenAI合作,向企业客户与开发者提供微软Azure OpenAI服务一样,华为云现在开始也可以向企业客户与开发者提供昇腾AI云服务。
昇腾AI云提供单集群2000P FLOPS的算力,支持千卡训练一个月以上不中断,已经在贵安与乌兰察布两座城市的AI算力中心上线了,而下一座即将上线的是芜湖AI算力中心。昇腾AI云不仅支持华为MindSpore框架,同时也支持行业内主流的AI框架,如PyTorch、TensorFlow等。
在客户层面,昇腾AI云已经取得了一些进展。张平安提到,美图在30天内将70多个AI应用迁移到了昇腾云上,同时华为云与美图开发人员一起对30多个算子进行了深度优化。优化后的算子与以前相比,AI算力的效能提升了30%。
大模型正在重塑各行各业,这并非是某一家企业的游戏,而是需要企业、开发者和伙伴更加紧密地协作,共同创新,共享价值和机遇。张平安提到,已经有许多客户和伙伴已经在创新应用中使用盘古大模型,优化企业流程,提高效率,推动行业智能化升级。
虽然华为云官方宣布盘古大模型的立项时间是在2020年,但实际上对于大模型的探索早就开始了。
2020年3月,华为诺亚方舟实验室计算机视觉首席科学家田奇,在内部转岗至华为云团队,担任人工智能领域首席科学家。他将是后来的盘古大模型团队的负责人。
田奇是计算机视觉领域的专家。他本科毕业于清华大学电子工程系,硕士毕业于美国德雷塞尔大学,后赴美国伊利诺伊大学香槟分校学习,师从Thomas S. Huang教授,并获得博士学位。在2002年至2019年期间,历任美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、正教授。
2018年,田奇做出了一个改变人生轨迹的决定,离开学术界,加入华为。对此,他曾如此解释:“我在德克萨斯大学圣安东尼奥分校做了17年的老师,教的本科学生换了一批又一批,永远是18岁到22岁。但我一直希望能够将我们共同做过的东西投入到真实场景中,看能不能给社会提供作用、发挥价值。”
就在田奇加入华为云的这个夏天,OpenAI发布了GPT-3,模型参数从上一代GPT-2的15亿陡升至1750亿,在人工智能领域掀起巨大震动。当时,谷歌、Meta等国际巨头已经围绕预训练大模型展开激烈竞争,而在国内,预训练大模型的发展还极为有限。根据IDC《2022中国大模型发展白皮书》的数据,2020年之前,中国大模型的数量只有2个。
当时的华为云已经把AI作为重要赛道。在看到预训练大模型在解决AI应用碎片化、处理大规模多任务上表现出来的强大性能之后,华为云也开始“汇聚英才”,准备进军大模型。2021年时,该团队包含20多名博士、30多名工程师、3名广受关注的“华为天才少年”,还有50多名来自全国C9高校的专家。
田奇希望给盘古大模型找到差异化突破口。当时国外对NLP大模型的关注度较高,而且已经取得了较好的成绩,但国内外对CV方面的大模型关注度都不高。因此,华为云盘古大模型没有局限在NLP领域,而是从CV着手,与NLP并行,二者结合语言、图像,搞多模态。同时,还特别看重华为一向非常重视的科学计算。
2020年11月,盘古大模型在华为云内部立项成功。为了尽快追赶上国际水平,田奇将这个团队称之为“特战队员”,他们需要克服时间、数据、算力资源等等难题。
为此,田奇团队采取广泛合作的对策。例如数据方面,他们找到了气象局等合作伙伴;资源、算力方面,又寻求与鹏城实验室进行合作。成员本身也需要随时调整身份做其他工作,比如CV专家可能也会去参与NLP和多模态大模型的开发,甚至他的CV知识都会灵活运用到其它领域中。在后期,这些技术专家们还需要更长远地去考虑商业化模式方面的问题。
在奋战6个月之后,华为云盘古大模型终于面世,并在接下来的两年中进行了两次大版本的迭代,直到今天盘古大模型3.0的发布。
华为云提前种下的种子,已经比多数同行更早结出了果实。
原文链接:https://baijiahao.baidu.com/s?id=1771002575548683145&wfr=spider&for=pc