文末福利:
抽奖赢取西门子空气检测仪与MUZILI移动电源
与非导语
AI大模型可能是走向强人工智能的必经之路,也或许只是过渡手段,但不管怎么说,它已经越来越清晰地呈现出了魅力。
AI落地初期,为了提升传统行业的应用体验,提高机器学习算法的效率,面向海量的、碎片化的应用场景,行业拼命“大炼模型”。
这从一定程度上确实助推了AI的落地,不过,为了进一步优化效果、提高精度,模型变得越来越复杂,数据越来越庞大,进一步提高了行业的应用门槛,特别是对小公司带来挑战。由于模型越复杂,所需的投入越大,训练成本越高,很多企业不足以应对这种状况,导致落地效率越来越低。
最“卷”的AI模型在语言领域。2020年夏天,OpenAI推出了GPT-3,它在自然语言处理方面展示出惊人的能力,能写文章、做翻译、生成代码,甚至可以学习一个人的语言模式,并遵循这个模式与人进行谈话。GPT-3的面市也使得全球范围内AI大模型迎来大爆发,参与企业越来越多,参数级别越来越大,成为新一轮AI竞赛的赛场。2021年,谷歌发布了万亿级模型Switch Transformer,微软和英伟达也推出了包含5300亿个参数的自然语言生成模型。国内的企业也不甘落后,华为、浪潮、百度、阿里巴巴等企业都竞相推出了自己的大模型。
AI进入“炼大模型”时代。
AI“剧本杀”玩家
能解行业之痛吗?
图源 | Fujitsu
国内AI大模型的代表之一是“源1.0”,是浪潮在2021年9月发布的单体巨量自然语言处理模型。“源1.0”一发布就问鼎全球最大规模的中文AI模型,其参数规模高达2457亿,训练采用的中文数据集达5000GB,相比GPT-3模型1750亿参数量和570GB训练数据集,“源1.0”参数规模领先40%,训练数据集规模领先近10倍。
一个有趣的应用是,源开发者社区的开发者基于“源1.0”开发出了“剧本杀”AI玩家。在游戏中,AI所扮演的角色不仅可以与其他玩家流畅对话,甚至会为了达成任务说谎去“套路”人类玩家。
它所凭借的,正是“源1.0”零样本(Zero-Shot)和小样本(Few-Shot)学习的优势,AI模型可以很好地理解并实现交互式叙事的“对话策略”,能够运用“举一反三”的对话能力,让剧本杀成为一部由玩家和AI在不知不觉中共同创造的全新故事。
开源社区产生的其他基于“源1.0”开发的应用也是五花八门,包括数字演员、正能量陪伴机器人、抬杠机器人、游戏NPC对话、文案写作、金融文本分析等……并且,浪潮的源1.0大模型已落地智算中心、金融等多个企业,实现了智算中心模型即服务(MaaS)的产品模式创新,助力金融大模型的研发。
我们该如何看待这些应用?它们反映出了AI的哪些发展趋势?
浪潮信息AI软件研发总监吴韶华介绍,在大模型出现之前,如果要做一个类似剧本杀的游戏,需要很强大的模型和复杂的流程。首先,这个模型既要有对话能力,也要有逻辑推理能力,这对于模型算法、数据研发的门槛很高。其次,用户要有自己的算法人员,需要从头开始收集数据、标注数据,然后做模型等,经过复杂的研发流程,最后才能走到最核心的业务逻辑上。
而有了大模型,这些问题都可以得到解决或缓解,并对AI模型的构建及应用产生极大影响。在算法基础设施层面,开源开放的大模型,使得开发者不需要关心底层搭建的技术,就能直接调用大模型的能力。这相当于把AI应用的开发向上推了一大步,让开发者聚焦应用最核心的业务逻辑,把跟模型相关的内容放在模型层面或算法基础设施的层面。基于源1.0搭建的“剧本杀”游戏,可以直接复用源1.0的开源代码,开发过程基本不需要写代码和调试代码,就完成了整个应用的构建,从而可以把更多精力放在剧情内容等创意的创作上。
从“三要素”到“大模型”
AI变了吗?
图源 | vemeglobal.com
人工智能从前几年强调“算力、算法、数据”,到现在大模型越来越受推崇。这反映了AI的哪些发展规律?AI的核心要素是否发生了变化?
吴韶华认为,AI的核心要素并没有发生变化,大模型训练更需要在“算力、算法、数据”三个层面开展创新。以“源1.0”大模型为例,在算法层面,面向效率和精度优化的大模型结构协同设计方法,针对Attention层进行结构优化,改进注意力机制聚焦文章内部联系的学习;创新小样本学习精度改进方法,在业界权威数据集上取得精度领先。
在算力层面,围绕深度学习框架、训练集群I/O、通信开展了深入优化,在仅采用2x200G互联的情况下,“源1.0”在2128颗异构加速器集群上的算力效率达到45%,超出MT-NLG与GPT-3等国际知名模型。面向多元异构芯片,研发了大模型推理软件框架,并在400颗国产芯片集群上实现了大模型弹性部署,将模型推理性能提高了数10倍,形成大模型+大算力的算法基础设施建设的实践成果。
在数据层面,当前主要存在中文训练海量数据难获取、难清洗等问题,浪潮海量数据过滤系统(MDFS)建立了从数据采集、粗滤、质量分类、精滤的全自动化的端到端数据工作流程,通过清洗866TB海量数据获得5TB大规模高质量中文数据集。该数据集已经开源,并已广泛应用于产业用户的模型训练中。
解“困”AI大规模产业化难题
业界普遍认为AI大模型当前面临的主要瓶颈包括:算力资源受限、训练成本高昂、人力投入巨大等。
在燧原科技产品市场部总经理高平看来,算力资源不足和成本昂贵的根本问题,其实是AI算力市场竞争不充分,目前国内AI训练算力市场基本被海外大厂独家垄断,成本与资源受限问题是垄断下的必然结果;其次,AI算力的技术发展在逐渐迈向成熟,面向AI计算的DSA架构在AI大模型如火如荼的发展趋势下,将会具备很好的规模经济效益,进而随着技术发展取得更好的成本优势;第三,人力投入大的问题主要是缺乏相应的标准规范,将会在产业发展到某个程度的时候得到解决,减少重复投入。
吴韶华认为,应用的碎片化、尤其是长尾场景应用的碎片化,仍是AI落地的难题。碎片化就意味着不同场景需要有针对性地建模,每个小场景都要从数据到模型、应用整个流程走一遍。此外,随着数据的更新,模型也要更新。设想对于一家维护着上百个模型的企业,要同时更新上百个模型及应用,投入无疑是巨大的。
而大模型的出现可以说是生逢其时,它能够将传统烟囱式的、碎片化的AI应用开发转向集中式开发。一方面,AI大模型具备很好的泛化能力,一个模型可以支撑各类不同应用,有效缓解碎片化开发反复建模的困境;另一方面,围绕AI大模型构建的算法基础设施,比如开放的API、开源的应用代码等,使开发者无需关心底层技术,设置无需配置编程环境,就可以直接将应用构建于AI大模型的能力之上,在降低开发门槛的同时,让开发人员将更多的精力聚焦在核心业务逻辑上。
AI大模型有望重塑产业格局
图源 | Luna2
高平认为,训练大模型所需要的海量算力必须依靠AI算力集群来支撑,能否充分发挥集群的整体效能,让成本昂贵的AI算力能算尽其用,是降低大模型训练成本的关键。燧原科技打造了基于液冷技术的AI集群训练产品“云燧智算机CloudBlazer POD”,通过软件层面(模型和框架)与硬件基础设施(计算、存储、网络)的协同优化,能最大化算力利用率,在实际部署的千卡训练集群上实现了0.95的线性加速比。同时,使数据中心PUE可以达到1.1,从而大大降低了电力消耗,进一步降低了成本。
“AI大模型的投入是AI技术迈向新台阶的必经之路,是解决产业碎片化的一种很好的方式,AI大模型的技术发展与商业落地,也将会重塑目前的AI算力市场格局与AI应用市场格局”, 高平表示,“未来,大模型的数量将远远少于目前的模型数量,这也有利于AI芯片针对性的设计开发与优化,是AI算力企业生态建立的新机会,也可以预期,基于DSA架构的AI芯片会在大模型的发展下大放异彩。”
此外,他认为大模型应用会形成新的上下游产业链,同时掌握大规模算力与数据的大型企业会把握产业链的上游;下游小企业利用大模型的能力,结合对行业理解的优势,能低成本地把AI技术应用到社会的各个方面。这将会是成熟的、进入良性循环的AI落地模式。
写在最后
一直以来,AI的研发多数都依赖于模型:一是用数据训练模型;二是基于数据得到更好的模型结果。这就离不开各个环节的分工,找数据、标注数据,AI专业人士调参……通过多个环节劳动成果的聚合,最终实现AI的落地。也正是这样高度分散且具有壁垒的分工,对AI的大规模产业化带来挑战。从目前各大企业、研究机构对AI大模型的愿景,它将能够很好地解决这些难题。
不过,也有人认为AI大模型本质上不过是深度学习的“加强版”,通过给模型“填喂”大数据提高其自学习能力,进而实现更强的智能程度。
但正如本文受访者所介绍,通过在算法、数据等层面的创新,它可以通过零样本、小样本学习精度的提升、高质量数据集的优化等,进一步提升泛化能力和效率,这是AI产业全链条的创新,而不仅仅只是追求更大的模型。
它可能是走向强人工智能的必经之路,也或许只是过渡手段,但不管怎么说,它已经越来越清晰地呈现出了魅力。
举报/反馈
原文链接:https://baijiahao.baidu.com/s?id=1745438037446111792&wfr=spider&for=pc