扎根行业,没有发布 ” 盘古 Chat”。
作者|涂明 朱悦
编辑|赵健
封面|《霍比特人 3:五军之战》
” 百模大战 ” 又添一员!
据不完全统计,在短短七个月时间内,全球 ” 有名有姓 ” 的大模型便已多达数百个,仅在中国就有至少 80 个。而在今天,” 百模大战 ” 中又有一支强军涌现——在华为开发者大会 2023 上,华为云发布了盘古大模型 3.0。
过去半年,华为在燥热的大模型市场显得异常低调。虽然早在 2021 年 4 月,盘古大模型 1.0 就已经发布,早于今天大部分的大模型。但是,当 ChatGPT 掀起的大模型热席卷全球时,与百度、阿里等大厂相比,华为的声量要小的多。
似乎是为了解释此前的 ” 低调 “,也似乎是为了喊话眼下 ” 琴棋书画诗文 ” 俱全的 AI 应用现状。今天,华为常务董事、华为云 CEO 张平安明确喊出了盘古大模型的价值观:” 不作诗,只做事。”
” 不作诗 ” 表明华为不会推出类似 ChatGPT、百度文心一言、阿里通义千问等面向 C 端用户的聊天机器人产品,而 ” 只做事 ” 意味着盘古大模型把重心放在了 B 端行业大模型的落地上。
盘古大模型 All in B 端市场,这一判断也与 ChatGPT 的市场走势形成了对比。今年 6 月,ChatGPT 的全球流量环比下滑了 10%,意味着人们对于聊天机器人产品的兴趣正在降低,相比之下,to B 市场还是一片蓝海。
华为本身就是做企业市场起家,对于服务企业用户有更为丰富的经验。
虽然表面看起来华为云是各大云厂商中对大模型的反应最慢的一家,但实际上盘古大模型已经在政务、金融、制造、煤矿、铁路、制药、气象等十几个行业的数百个场景落地,在国内云厂商中独树一帜。同时,与盘古大模型 3.0 一同上线的,还有华为云昇腾 AI 云服务。
大模型普遍被云厂商看作是下一个重要的增长点。根据 IDC 数据,华为云 2022 年在国内的市场份额位居第二,仅次于阿里云之后。而在行业市场的充分布局,有望让华为云进一步抢占市场。
这场关于 AI 的云端战争,已经正式打响了。
盘古大模型 3.0 都包含什么?据张平安介绍,这是一个涵盖三级体系的 ” 大家伙 “。
三级体系是华为在 2022 年 4 月提出的概念,即基础大模型 L0、行业大模型 L1,以及场景大模型 L2。三者层层递进,从通用能力逐渐向各个垂直领域演进,由此 ” 重塑行业 “,支撑起华为 “AI for industries” 的宏大目标。
具体而言,盘古大模型在 L0 层面包含五大基础大模型,分别是语音语义大模型(NLP)、视觉大模型(CV)、科学计算大模型、多模态大模型和图网络大模型。
其中,盘古 NLP 大模型是业界首个千亿参数的中文预训练大模型,首次使用了 Encoder-Decoder 架构(与谷歌 T5 相同),可以让大模型兼具语言的理解与生成两种能力。盘古 NLP 大模型由华为云和循环智能联合开发,由鹏城实验室提供算力支持。
CV 大模型参数量为 30 亿,是业界首次实现按需抽取的模型;科学计算大模型主要解决各种科学问题,拥有湍流模拟、天气预报、自然灾害预警等多种能力;多模态大模型则具备图像和文本的跨模态理解、检索与生成能力;图网络大模型主要解决数据异质化问题,华为首创了图网络融合技术,极大拓展了大模型的泛化能力,让一个模型能够应用于多个任务。
在 L0 基础大模型底座之上,华为结合行业数据进一步训练,就是 L1 行业大模型。去年 11 月,华为云首次公布了在矿山、气象、药物大分子、金融等四个领域的行业大模型;L2 则是在 L1 行业大模型基础上,更进一步深入细分场景的推理模型,比如金融领域的金融违约风险识别模型、柜台工作人员工作流程指导模型等。
在今天发布的盘古大模型 3.0 中,NLP大模型和多模态大模型得到了两个重磅升级,其余三大模型将从这些进步中获益。
第一个升级发生在 NLP 大模型上。过去,大模型领域弥漫着一种 ” 参数量至上 ” 的评价氛围,大厂之间的大模型参数量从数千万迅速 ” 卷 ” 上了千亿级别。张平安表示,其实对大模型而言,参数量的大小并不是最佳评价标准,如何用好参数、让大模型运行地更稳定、对行业适应性更强,才更值得关注。
因此,在盘古大模型 3.0 中,华为在原有的千亿级参数NLP模型外,还发布了 710 亿、380 亿、100 亿等多种参数级别的模型。张平安表示,” 华为的 AI 管道里跑了几十款模型,之所以提供这么多不同参数的模型,是因为要考虑到不同行业、不同应用场景下中,客户对大模型的不同需求。核心是用最低的算力消耗,实现最匹配的解决效果 “。
第二个升级则是 ” 将大模型分为‘ Data ’、‘ Foundation ’和‘ Capability ’三层,彼此间相互解耦 “。
据张平安介绍,Data 指数据层,华为单独为所有大模型设计了一个训练数据池,Foundation 层即基础层,是不同参数大模型之间的差异,而 Capability 是能力层,各个大模型之间的能力层要做到一致,即 ” 所有大模型共用一个能力集 “。张平安强调,” 能力集是一个全新的设置 “。
他举了个例子,比如多模态大模型的能力集包括图像生成、图像理解等。能力集共用以后,一方面,这些能力集 ” 可以直接被客户调用 “,另一方面 ” 科学计算大模型、视觉大模型等也可以直接调用多模态大模型的能力 “。
对于这一点改变,张平安表示,数据层解耦后,” 每次训练都可以明确调用的是哪些数据 “,这有利于数据安全,并能解释不同模型能力的区别。基础层和能力层的解耦更重要,” 基础层和能力层解耦以后,你不管用什么参数级别、基础类型的大模型,300 亿也好,1000 亿也好,多模态也好,科学计算也好,在能力上完全一致。”
Foundation 和 Capability 为什么一定要解耦?这种变化的威力有多大?
张平安认为,将能力集独立出来,做到完全解耦,是让大模型配适不同场景所必须的一步。而在这种变化的基础上,华为盘古大模型成功从 ” 小作坊 ” 的生产模式进入到 ” 工业化 ” 时代,盘古大模型因此有能力 ” 重塑千行百业 “。
L0 层面的变化,带来了 L1 层面的跃进。
在盘古大模型 3.0 发布会上,张平安和华为云 EI 服务产品部部长尤鹏一起展示了盘古大模型应用在矿山、铁路、气象、金融、制造、编程、视频等七个行业领域时的威力。
比如在矿山行业,盘古大模型的能力是实现矿洞的无人巡检、远程作业。
在矿山作业危险度极高,由于矿洞中光线昏暗、浮尘密布、视野限制较大,摄像头能发挥的作用不大,所以矿山中的巡视检查工作一般都要由人工来完成。而通过盘古透尘大模型与视觉大模型,工作人员不用下井就能够轻易识别井下情况,实现远程操作。
目前,华为在矿山领域已经与山东能源集团及其技术公司云鼎科技达成深度合作,双方共同开发了 21 个场景化应用,覆盖了 7 大业务系统,在全国的 8 个矿井里做到了规模化使用,能够覆盖煤矿采、掘、运通、洗等全流程下的 1000 多个细分场景。
还有铁路领域,盘古大模型的能力是助力货车完成安全检测。
据张平安介绍,中国总共拥有超过 100 万辆货车,每年跑在铁路上的货物高达将近五十亿吨。为保证这些货车的安全,传统的做法是在轨道旁边安装高速摄像机,火车经过时对其底部进行高速摄影,拍摄图片送到检测员手中,人工识别可能的故障点。
这是一套工作量极大且不甚可靠的工作方法。张平安做过统计,一个交通枢纽假如每天要过站 1000 辆货车,则需要采集的照片数量为 400 万张。这些工作需要 260 个有经验的检测员四班倒才能完成。
而应用盘古视觉大模型之后,一双盘古眼就能看完所有的图片,由盘古进行初筛,初筛之后再由检测员确认具体的危险。据统计,盘古大模型可以将 400 万张照片筛至 20 万张照片,筛除率高达 95%,且故障的检测漏检率为 0,能将检测效率提升 20 倍,极大降低人工工作负担。
类似的例子还有很多,比如气象预测领域,传统的预测方法要占用 3000 台服务器,计算 4~5 小时才能完成,而盘古大模型只需要在单台机器上工作 10 秒,张平安透露,盘古气象预测模型的结构已经成为欧洲气象局的参考之一。昨天(7 月 6 日),盘古云气象大模型的相关论文还登在了国际顶级学术期刊《Nature》上。
在金融行业,华为与中国工商银行合作打造金融大模型,帮助优化员工工作流程。工行在全国有 4 万个网点、20 万 + 员工,应用华为大模型后,单次业务办理流程能从 5 环降低为 1 环,单次结算时间减少 5 分钟;在制造业,盘古大模型已经走进华为的制造生产线,其天筹集求解器已经被用于帮助华为设计排产计划,排产工作的耗时从三小时排一天计划,缩短到 1 分钟排出未来三天计划。在视频领域,盘古大模型可以用三分钟完成过去三个人花三天才能完成的工作量。
据华为云人工智能首席科学家田奇介绍,在过去几年,华为云人工智能项目已经应用超过 1000 个项目中,其中 30% 用在客户的核心生产系统里,平均可以推动客户盈利能力提升 18%。张平安对此很骄傲,在华为开发者大会上多次呼吁,” 让我们为盘古大模型鼓个掌。”
张平安表示,” 很多大模型,表现看起来都很好,会写诗、会画画、会讲故事,华为不一样,华为的盘古大模型不会作诗,只会做事 “,他强调了华为的 AI for Industries 战略,” 盘古大模型是要扎根行业的,它要下矿坑、测台风,没时间作诗 “。
华为云盘古大模型的创新力来自什么?
张平安提到,一方面来自大模型自身模型的创新,另外一方面来自坚实的 AI 堆栈,即 AI 根技术。AI 根技术包括底层算力、AI 计算框架、AI 开发平台、AI 工程平台等。如果没有成熟的 AI 根技术,大模型也很难发挥出出色的价值。
对于底层算力,英伟达的 GPU 芯片是训练大模型的最佳载体。但由于芯片禁令,华为是无法使用业内最成熟的 GPU 与配套软件的。因此,华为只能依靠自研的芯片。
在算力层,华为构建了 ” 鲲鹏 CPU+ 昇腾 GPU” 为基础的昇腾 AI 云算力底座。在训练千亿参数的盘古大模型时,华为调用了超过 2000 块的昇腾 910,进行了超过 2 个月的训练。
基于昇腾 AI 云算力底座,华为云有 “CANN+MindSpore” 的 AI 框架。CANN 作为华为针对 AI 场景推出的异构计算架构,向上支持多种 AI 框架,向下服务 AI 处理器与编程,而 MindSpore 作为全场景 AI 计算框架,实现端边云全场景灵活部署,以及一站式开发平台 ModelArts,完成对计算、通信、存储和算法多方面的优化。
通过这样深度的 AI 堆栈,华为云可以为盘古提供坚实可靠的 AI 基础。如果需要更大的大模型集群系统,还可以在通信方面进行深度优化。
张平安还表示,虽然无法使用业内最先进的大模型,但在 AI 昇腾云算力的基础上,它的效能不仅不落后,而且还达到了目前业界主流 GPU 的 1.1 倍。
盘古的快速迭代和更新离不开昇腾 AI 云的支持。而华为云不仅向行业输出大模型,现在也可以向行业输出训练大模型的 AI 服务了。
就像微软与 OpenAI 合作,向企业客户与开发者提供微软 Azure OpenAI 服务一样,华为云现在开始也可以向企业客户与开发者提供昇腾 AI 云服务。
昇腾 AI 云提供单集群 2000P FLOPS 的算力,支持千卡训练一个月以上不中断,已经在贵安与乌兰察布两座城市的 AI 算力中心上线了,而下一座即将上线的是芜湖 AI 算力中心。昇腾 AI 云不仅支持华为 MindSpore 框架,同时也支持行业内主流的 AI 框架,如 PyTorch、TensorFlow 等。
在客户层面,昇腾 AI 云已经取得了一些进展。张平安提到,美图在 30 天内将 70 多个 AI 应用迁移到了昇腾云上,同时华为云与美图开发人员一起对 30 多个算子进行了深度优化。优化后的算子与以前相比,AI 算力的效能提升了 30%。
大模型正在重塑各行各业,这并非是某一家企业的游戏,而是需要企业、开发者和伙伴更加紧密地协作,共同创新,共享价值和机遇。张平安提到,已经有许多客户和伙伴已经在创新应用中使用盘古大模型,优化企业流程,提高效率,推动行业智能化升级。
虽然华为云官方宣布盘古大模型的立项时间是在 2020 年,但实际上对于大模型的探索早就开始了。
2019 年 12 月,华为诺亚方舟实验室的 NLP 团队就开源过两个基于 BERT 路线进行优化和改进的预训练模型——哪吒和 TinyBERT。但该模型后续就没有更多下文了。
2020 年 3 月,华为诺亚方舟实验室计算机视觉首席科学家田奇,在内部转岗至华为云团队,担任人工智能领域首席科学家。他将是后来的盘古大模型团队的负责人。
田奇是计算机视觉领域的专家。他本科毕业于清华大学电子工程系,硕士毕业于美国德雷塞尔大学,后赴美国伊利诺伊大学香槟分校学习,师从 Thomas S. Huang 教授,并获得博士学位。在 2002 年至 2019 年期间,历任美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、正教授。
华为云人工智能领域首席科学家田奇
2018 年,田奇做出了一个改变人生轨迹的决定,离开学术界,加入华为。对此,他曾如此解释:” 我在德克萨斯大学圣安东尼奥分校做了 17 年的老师,教的本科学生换了一批又一批,永远是 18 岁到 22 岁。但我一直希望能够将我们共同做过的东西投入到真实场景中,看能不能给社会提供作用、发挥价值。“
就在田奇加入华为云的这个夏天,OpenAI 发布了 GPT-3,模型参数从上一代 GPT-2 的 15 亿陡升至 1750 亿,在人工智能领域掀起巨大震动。当时,谷歌、Meta 等国际巨头已经围绕预训练大模型展开激烈竞争,而在国内,预训练大模型的发展还极为有限。根据 IDC《2022 中国大模型发展白皮书》的数据,2020 年之前,中国大模型的数量只有 2 个。
当时的华为云已经把 AI 作为重要赛道。在看到预训练大模型在解决 AI 应用碎片化、处理大规模多任务上表现出来的强大性能之后,华为云也开始 ” 汇聚英才 “,准备进军大模型。2021 年时,该团队包含 20 多名博士、30 多名工程师、3 名广受关注的 ” 华为天才少年 “,还有 50 多名来自全国 C9 高校的专家。
田奇希望给盘古大模型找到差异化突破口。当时国外对 NLP 大模型的关注度较高,而且已经取得了较好的成绩,但国内外对 CV 方面的大模型关注度都不高。因此,华为云盘古大模型没有局限在 NLP 领域,而是从 CV 着手,与 NLP 并行,二者结合语言、图像,搞多模态。同时,还特别看重华为一向非常重视的科学计算。
为此,田奇团队采取广泛合作的对策。例如数据方面,他们找到了气象局等合作伙伴;资源、算力方面,又寻求与鹏城实验室进行合作。成员本身也需要随时调整身份做其他工作,比如 CV 专家可能也会去参与 NLP 和多模态大模型的开发,甚至他的 CV 知识都会灵活运用到其它领域中。在后期,这些技术专家们还需要更长远地去考虑商业化模式方面的问题。
在奋战 6 个月之后,华为云盘古大模型终于面世,并在接下来的两年中进行了两次大版本的迭代,直到今天盘古大模型 3.0 的发布。
华为云提前种下的种子,已经比多数同行更早结出了果实。
END.
参考链接:
https://bbs.huaweicloud.com/blogs/297557
原文链接:http://app.myzaker.com/news/article.php?pk=64a7f6bc8e9f0923296a49d1