受访者:华为云人工智能领域首席科学家 田奇
有这样一个案例,某工厂的IT负责人想要应用AI,咨询之后却发现开发成本过于高昂,人才、算力、算法等条件都不具备,最后只能作罢。
有这样一位朋友,任职于某家AI技术供应商,他们推出的行业解决方案备受好评,却在实际进入商业化阶段时,发现大量客户都需要定制,只能让公司的AI专家四处奔波,解决用户的细小问题,最后利润却连人员开支都无法覆盖。
还有一条朋友圈,一位AI开发者扼腕,惋惜于中文世界缺少NLP预训练大模型。
其实,这些朋友都遇到了同一个问题:一道名为“AI开发”的产业天堑。
当我们谈论AI时,总是会将其效果等同于数据集、实验室里的能力上限,却忽略了在真实的开发、训练、部署中,AI有着太多碎片化与不确定性的因素。因此,如何跨过这道产业天堑,就成为了一场名副其实的全球大赛。
这场赛跑中至关重要的一个项目,名为“预训练大模型”。随着预训练大模型的产业与战略价值在国际上水涨船高,致力于将AI打造为新一代信息技术核心抓手的中国产学各界都感受到了一丝紧迫。
中文世界什么时候能迎来强大可用的预训练大模型?面对AI开发的“天堑”,我们有什么自己的解决之道?
就在种种声音不断发酵的同时,华为云人工智能领域的首席科学家田奇,正与团队一同发起一次悄无声息的冲锋。
这次冲锋的“行动代号”,叫做——盘古大模型。
天堑:“小作坊式”的AI开发困境
试想一下,如果每家企业在进行研发时,都需要自己做螺丝、轴承、齿轮这些基础部件,那整个社会的工业化从何说起?
但在AI领域,却真的会出现这种情况。如今,AI技术的企业渗透率仅为4%,距离产业爆发期还有相当长的路要走。究其原因,并不是AI缺乏价值,而是开发过程中存在大量的碎片化因素。每家想要应用AI的企业,可能都需要一些技术水平高的人进行独立的架构设计与调参。这就像每家工厂都需要聘请设计师来设计螺丝一样,是一种相当粗放、原始的手工作坊模式。
来到华为云的田奇及同事们都发现了这个问题。
加入华为之前,田奇已经是AI领域业界知名的学者。他是美国伊利诺伊大学香槟分校博士、是IEEE Fellow,也是原德州大学圣安东尼奥分校计算机系的正教授。在高校任教17年之后,带着学术界的前沿思考和科研成果,田奇与团队来到了产业一线,他们首先关注到的,就是广泛存在于各个角落的AI开发困境。
由于传统的NLP、机器视觉模型开发都来自研究机构,所以其开发模式也天然与实验室对齐,缺乏产业界要求的效率、标准化与成本可控。
比如说,某家企业在开发一个项目时,往往需要开发一系列定制化的小模型,由于每个模型的开发周期都相对较长,且需要不断完成各种数据清洗、数据增强、模型适配等琐碎繁杂的工作,因此,这个过程中,开发人员会选择自己熟悉、擅长的模型与开发方式,而这会导致每个模型之间的差异化很大。一旦出现问题就可能推倒重来,而人员变动更可能让所有努力付之东流。
基于此,一般这种开发模式均会存在“三高”问题,即对开发人员的专业性要求高、综合成本高、不可控程度高。
如何突破这道产业的天堑?从工业体系的逻辑上看,核心方案就是提升AI开发前置工作的标准化程度,将不同开发者所需模型的公约部分提前训练好。这就是工业化中的零件化、标准化和流程化。
在探索AI工业化的过程中,预训练大模型逐渐成为了行业认可的方案。其逻辑是提前将知识、数据、训练成果沉淀到一个模型中,然后将这个基础释放到产业,再由不同行业、不同企业的开发者在此基础上进行二次开发和微调。就像工业化社会的第一步,是完善重型机械的建造能力,而AI工业化的来临,也需要首先拥有作为底座的“重型机械”。这也成为盘古大模型团队在华为云体系中的首要任务——翻越开发天堑,在于能筑“重器”。
盘古大模型已经在100多个行业场景完成验证
登山:盘古大模型背后的人与事
要想打造一个属于中文世界,并且适配各种真实产业场景的AI预训练大模型,摆在研发团队面前的是两大门槛。一个是技术门槛,大模型需要卓越的并行优化来确保工作效率,这对网络架构设计能力提出了更高的要求。第二是资源门槛,大模型训练需要极大的算力,在训练千亿参数的盘古大模型时,团队调用了超过2000块的昇腾910,进行了超过2个月的训练。这对于一般企业来说显然难以承担。
总之,想要快速打造一个可堪重用的AI大模型,需要调用各方的力量,并且精准完成技术上的进化。
2020年夏天GPT-3的出现,让欧美AI界对预训练大模型的兴趣大增。但在国内,产业界对NLP预训练大模型的关注还相对较少。而机器视觉领域的预训练大模型,在全球范围内更是十分陌生的新鲜事物。
2020年3月,田奇加入华为云后便开始组建团队,并且进行了方向梳理;8月,团队迎来新的核心专家;9月,团队开始推动盘古大模型的立项,希望能够在华为云的产业基座上,完成适配各个产业AI开发的大模型;11月,盘古大模型在华为云内部立项成功,并完成了与合作伙伴、高校的合作搭建。
同时,在打造盘古大模型之初,团队就确立了三项最关键的核心设计原则:一是模型要大,可吸收海量的数据;二是网络结构要强,能够真正发挥出模型的性能;三是要具有优秀的泛化能力,可以真正落地到各行各业的工作场景。
接下来就是选择赛道的问题。
当时,NLP领域的预训练大模型已获得广泛关注,顺理成章就成为了盘古大模型的重中之重。同时,AI在产业应用中最广泛的需求是机器视觉能力,盘古大模型也瞄准这一领域,在NLP及机器视觉两个领域的大模型开发上双管齐下。
与此同时,盘古大模型也完成了未来规划。首先,希望能把机器视觉、NLP、语音,甚至计算机图形学的技术结合起来,形成多模态的预训练大模型,以增强预训练大模型的跨领域协同落地能力;其次,AI落地中有一个十分重要的领域是科学计算,如海洋、气象、制药、能源等领域均有非常强的知识处理、科学计算的需求,而用AI的方法去求解科学计算的问题,无疑将带来十分巨大的价值潜力。因此,多模态与科学计算大模型,将是盘古接下来的行动方向。
在确定了建设方案与赛道选择之后,接下来的研发工作虽顺序开展,但仍会经历创造性研究过程中产生的一系列挑战。
举例来说,盘古大模型的核心开发过程,是以海量有效数据进行模型预训练,以实现吸收大量数据之后模型的高度智能化,但数据和算力从哪里来,就成为一个不可避免的问题。在盘古大模型的开发过程中,华为云与合作伙伴多方推动,确保了所需数据及算力资源的保障到位。但即使华为云拥有非常好的资源基础,在千亿参数级别的大模型面前仍显不足。为此,田奇团队尝试与合作伙伴紧密协作,调用一切资源来确保开发进度——如团队通过与鹏城实验室的合作,完成了模型训练所需算力的调用。
而在数据与知识方面,盘古大模型的开发团队经常会遇到与具体行业知识体系、数据系统的磨合问题,在具体过程中,也会经常出现意料之外的情况。例如一个医学数据的准确率,显然应该依赖医学专家的解答,但在具体场景中,往往医学专家的判断准确率并不高。这类AI领域之外出现的情况,往往会反向影响到盘古大模型的开发进程。为此,盘古大模型团队需要与具体的行业专家进行反复沟通,希望把他们的知识或者直观感受,转化为计算机可量化的模型,再对训练出的结果进行协同验证。如此进行反复的跨领域沟通与联动,最终才可能达成关于AI的共识。
在盘古大模型的开发过程中,由于时间紧张、训练难度及成本巨大,并且还是机器视觉与NLP双模型的同时推动,自然需要内部团队的“超人发挥”。田奇回忆,团队内部都叫自己“特战队员”,也就是角色需要经常互换,工作需要相互支撑,哪里缺人就要在哪里顶上。作为技术专家,同时也要考虑很多产业落地、商业化方面的问题。
这个支撑盘古大模型不断攻坚克难的团队,起初仅有几个人,他们是让盘古大模型得以从实验室走向产业的中坚力量。如今,团队已逐渐壮大起来,拥有20多名博士、30多名工程师、3名广受关注的“华为天才少年”,还有50多名来自全国C9高校的专家。
翻山越岭从来不易,智能时代亦是如此。
翻越:“盘古”究竟强在何处?
2021年4月,盘古大模型正式对外发布。其中,盘古NLP大模型作为业界首个千亿参数的中文预训练大模型,在CLUE打榜中实现了业界领先。为了训练NLP大模型,团队在训练过程中使用了40TB的文本数据,包含了大量的通用知识与行业经验。
盘古CV大模型也在业界首次实现了模型的按需抽取,可以在不同部署场景下抽取出不同大小的模型,动态范围可根据需求调整,从特定的小场景到综合性的复杂大场景均能覆盖;同时,其提出的基于样本相似度的对比学习,实现了在ImageNet上小样本学习能力上的业界第一。
通过这些数据,我们可以进一步考察盘古大模型的优势及能力点之所在。
首先,我们知道盘古大模型拥有机器视觉模型,回到NLP领域中,在盘古大模型的研发过程中,团队考虑到在真实的产业场景中有大量的内容理解需求,比如客服、智能对话等,于是给盘古大模型设计了兼顾架构,且同时能高度完成理解与生成的任务。
再来看一些具体的技术差异,盘古大模型提升了复杂场景下的小样本学习能力,使小样本的学习效率提升了一个数量级;在微调能力上,盘古拥有更好的数据吸收及理解能力,可以在真实行业场景中实现模型应用效率的提升;在行业知识的集成方面,盘古大模型能力更强,其采用更灵活的模块设计,能够根据业务场景的适配,提升行业知识的吸收效率。
在技术创新之外,盘古大模型还是一个天然瞄准AI工业化、现实场景的项目。在立项初期,研发团队就与合作伙伴进行了一系列商业化验证,以此来确保盘古大模型走入真实产业场景后的效率及适应能力。这也是盘古大模型的一大差异化特点,它并非为实验室而造,而是将工业化的一面放置在更高的优先级上,是一个以商业价值驱动研发创新的“实干模式”大模型。
与其他预训练大模型的另一个不同点在于,华为团队在研发过程中始终将生态化、协同创新纳入考量。因此,盘古大模型是一个开放、可生长的产业实体,可以在各个环节引入生态合作伙伴、高校科研团队,以及不同领域AI开发者的力量。以此确保了盘古大模型融入产业链条、搭建生态化合作的能力。
从技术化、商业化、生态化三个层面,盘古大模型驱动预训练大模型进入了一个新的阶段,也为“作坊式AI开发”到“工业化AI开发”的转换奠定了坚实的基础。
盘古之力,在于合力。
灯火:大模型的落地进行时
虽然发布时间只有几个月,但从立项之初,盘古大模型就已经开展了一系列产业合作。这些来自千行百业的“盘古故事”,可以让我们看到大模型与AI开发之变带来的真实影像。
在物流场景里,盘古大模型协助浦发银行构建了“物的银行”——浦慧云仓。在人员行为、货物检测等方面,可将性能提升5%~10%;同时,开发效率也大幅提升,原本需要1~2个月的开发工作,现在只需要两三天就可完成,极大地降低了开发中的人力、算力及维护成本。
在盘古大模型的落地进程中,“意外”惊喜也经常出现。比如,在国家电网巡检案例中,由于缺陷的种类复杂多样,采用传统的方法需要对大多数缺陷适配特定的模型才能满足性能需求,因此,100余种缺陷就需要开发20多个模型,造成模型迭代维护非常困难。盘古大模型创造性地提供了行业预训练模型,得益于其突出的特征表达能力,能够做到一个模型适配所有缺陷,不仅极大地提升了开发效率,平均识别效果也提升了18%。此外,盘古大模型还提供了针对零样本的缺陷检测功能,能够快速判断出新缺陷,可贴近于真实巡检员的能力。
随着成功案例的不断增多,盘古大模型的行业认可度也开始节节攀升,推动“预训练大模型是AI工业化主要途径”成为了行业共识与产业发展方向。目前,盘古大模型已经在能源、零售、金融、工业、医疗、环境、物流等100多个行业场景完成验证,精度提升、效率加强、开发成本下降,逐渐成为盘古大模型走向产业的几个“标签”。
万家灯火初上,百业AI将兴。
“精度提升、效率加强、开发成本下降”,逐渐成为盘古大模型走向产业的几个“标签”
思索:AI工业化的虹吸与变革
盘古大模型的故事当然刚刚开始,但从它的立项、研发和落地进程,我们却可以得到一些关于AI工业化的思考。
从历史演进看,一种产品的工业化进程必然需要经历研发为重—基座为重—产品为重三个层级。例如我们熟悉的智能手机,也是在经历了微型处理、无线通信、屏幕触控等技术的储备阶段之后,最终形成了一套标准化的集成逻辑与基础产业链。这一阶段,厂商不必再花费巨资进行基础研发,而是可以用相对较低的成本完成零部件的采购与集成制造。也只有这样,厂商才能打磨产品,雕琢功能,消费者才能用上物美价廉的智能手机。
将这个逻辑回溯到AI领域。自以深度学习为标志的AI第三次兴起之后,这项技术得到了快速发展,但其基础业态还处于“研发为重”的第一阶段,由于行业中缺乏公开、有效、低成本的产业基础,而导致很多理论上成立的方案难以落地。
而盘古大模型的价值,恰恰就在于推动了AI的低成本、可复制。虽然在打造大模型的阶段需要耗费巨大的研发成本与资源,但一旦突破产业规模期,就将带来全行业的普惠价值。田奇认为,目前我们正处在AI工业化开发模式起步后的快速发展阶段,而大模型是最有希望将AI进行落地的一个方向。
照此来看,我们在观察、思考和推动预训练大模型发展时,不应该仅停留在科研基础设施的角度,而是应该以产业应用为导向,引导各方全力以赴,谋求AI工业化进程的质变契机。
盘古大模型的实践表明,这个过程需要多重力量的携手与跨界。当初,田奇加入华为,一度被视作AI学者进入产业界的代表性事件,如今看来,这种“跨界”和“变化”确实起到了作用。田奇有着最新的研究方法、技术创新能力与国际视野,在华为云的产业结构中,田奇团队也找到了学术界所不具备的驱动力——在产业界,科学家必须思考功耗、效率、成本、商业场景等一系列真实问题,将“学以致用”落实到方方面面。
盘古大模型的开发过程,犹如一场AI学者及工程师与各行业专家、企业的对话。铁路、物流、医学、天文,种种专业领域的知识要融入大模型之中,这就需要更强的协同能力与相互理解。
产学研的纵向融合及不同行业领域的横向协同,产生了AI在工业化阶段必须经历的虹吸效应。从这个角度看,盘古大模型也是一次产业、科研的虹吸范本。
这种“协同发力、重装行动”的盘古大模型模式,或许将在未来一段时间内不断涌现,也将成为云计算与AI产业的战略重心。而其带来的影响,可能将推动AI开发的综合门槛下降,一系列产业与社会价值的提升,以及战略级AI基础设施的完备。
据田奇回忆,在打造大模型的过程中,他更多考虑的是可能带来的商业价值。如果不能复制推广,那么大模型可能就是“一个只能在实验室中被观赏的东西”。团队希望大模型能够在更多场景中被使用,这样才能带来改变。
当更多科学家、行业专家、AI架构师用这样的角度和动力去思考AI、推动AI、建造AI时,横亘在AI面前的产业天堑,就将最终会成为登山者的丰碑,成为AI工业化变革的标志。
也许有一天,我们在聊AI往事的时候,会记住这么几个字:
AI落地,“盘古”开天。
原文链接:https://www.huawei.com/cn/huaweitech/publication/90/huawei-cloud-pangu-model-releases-ai-productivity