8月4日,华为在2023年华为开发者大会上发布鸿蒙4.0系统。华为终端事业部 CEO余承东在发布会上称,华为的盘古大模型,包括自然语言大模型、视觉大模型、多模态大模型,都会来助力鸿蒙操作系统和鸿蒙生态。
问:华为的盘古大模型包括自然语言大模型、视觉大模型、多模态大模型,都会来助力鸿蒙操作系统和鸿蒙生态。接入AI大模型,对操作系统的使用体验有哪些改善?
江天:早在2012年鸿蒙系统立项之初,它的定位就是支持不同的IoT物联网设备的平台,而不是安卓系统的替代。根据华为在HDC2023开发者大会上介绍的HarmonyOS4以及升级名单,HarmonyOS4支持华为手机、智慧屏、路由以及门锁等IoT硬件,而这些不同场景的终端数据将通过华为的盘古大模型一一打通,用户能获得更高效快捷的使用体验。
HarmonyOS4新版本中的智能助手小艺基于大模型得到了全面的升级,主要体现在多模态交互以及个性化创作这两大能力。
在多模态交互层面,小艺的交互方式从原先的语音交互增加了文字、图像以及文件等多种形式的输入,小艺背后的大模型将会记住这些信息,由此用户可以通过小艺与这些信息进行“交流”,小艺会基于此帮用户完成部分任务。
在个性化创作层面,小艺背后的多模态大模型支持图像生成(包括文生图和图生图)、图像编辑以及图像理解三大能力。用户可以通过与小艺问答交流来调用模型的AI能力生成与编辑各种风格的照片;此外,用户也可以在华为的手机上体验到最新的艺术视觉主题,这项功能通过AI将照片中的主体(例如人像、宠物或者物品)与原始背景分离,自由搭配新的背景,实现创作功能。
问:大模型怎样重构手机等终端设施的使用体验?
江天:大模型本质的能力主要体现在对海量信息与数据的处理与推理,这些数据包括了文本、语音、图像、文档等多种内容形式。
对于用户来说,原先需要个人一对一地与这些内容载体进行接触并阅读,而基于AI大模型,用户可以有选择性和有省略地获取更多不同形式的内容。比如,在资讯阅读的场景里,原先用户在5分钟内需要肉眼浏览3000字的文章页面,现在大模型会总结这篇文章,精炼到200字,用户只需花几秒扫一眼就可以了解这篇文章的核心内容,这是一个特别小的应用。如果在科研领域,一篇高达数万字的外文文献,AI能够为用户节省更多的时间,这就让用户能在单位时间里阅读更多的论文。除此之外,给予AI大模型,用户也可以迅速了解更多在视频或者音频中的海量信息,AI 实际上能帮助用户提高了获取信息的效率:获取更广的内容,也能精选更多的内容。
以上是大模型辅助信息输入,在信息的输出上,用户也能够在手机终端做更多曾经电脑才能实现,或者需要一个团队才能完成的复杂需求。比如大模型之前,完成一条专业的特效视频,需要一个工作室的多个工种,通过多个电脑端的软件才能实现。未来基于一些开源的模型能力,用户可能在手机终端通过语言的叙述,手机就能在本地生成一些视频或者动画内容,不仅节省了时间,也释放了创造力。
问:现在大厂都在研究大模型,大模型会如何重塑产品逻辑、盈利方式和使用体验?
江天:对于大模型厂商而言,重要的是界定好什么是厂商做的,什么是大模型生态的开发者做的,如果界定不了,那么商业模式会比较难。以 OpenAI 举例,Sam Altman 之前也提到过这点,OpenAI 并不会开发更多的应用产品,而是侧重吸引更多开发者使用 OpenAI 的底层服务,例如 GPT-4 和 DALLE2 等大模型服务,或者基于 ChatGPT 语言交互的窗口,吸引开发者开发有趣的 Plugin 应用,就像一场比赛,厂方如果既是裁判又是运动员,比赛有失公平性,也很难吸引更多的开发者加入,而好的比赛应该是开放、持续、多方共赢且定位明确的。
那么对于国内发展大模型的企业而言,哪个大模型最有竞争力取决于未来开发者能从哪个生态赚到最多的钱,而且前景是非常确定性的。这就倒逼厂方提供的基础设施需要更加有竞争力才行。比如BAT搞个联盟,确定标准和协议,当然也看企业的稳定性、能够链接的资源,比如政府关系处理得怎么样等等。
对于大模型厂商而言,能做的基本是大的云服务厂商,它们的卖点主要是为开发者提供调用模型能力的API,可以通过API的使用量和使用时间来收费,也可以顺带销售云服务器或者算力服务。
当然,大厂也会根据一些战略需要,自己下场开发一些基于大模型能力的软件产品,而不是交给第三方去做,例如手机终端的智能助理和相册,其实在过去的移动互联网时代就已经配备了类似的功能,在今天AI时代,主要是增强了原先场景的能力,对于终端用户来说得到了更多的AIGC使用体验。
问:将AI大模型能力引入终端是目前许多硬件厂商追求的方向,目前机会在哪?难点在哪?
江天:首先,将AI大模型能力部署到终端侧可以降低推理成本,特别是在大规模用户量和高频率使用情况下。相较于在云端部署和执行,终端设备能够自主承担部分计算负载,减少了云端运算所需的资源和费用。其次,终端AI能力允许设备在本地进行实时推理,无需等待云端的响应。这种即时性对于用户体验尤其重要,例如在智能手机上应用AI助手,能够更快速地响应用户需求,提供个性化服务。
目前,行业里主要的难点体现在终端设备通常受限于计算能力和功耗,如果要支持AI大模型在本地终端的大量计算和复杂任务处理,必须保持性能和功耗的平衡,确保设备的续航时间和用户体验;由于通常AI大模型参数量很大,而终端设备的存储和内存都有限,这里的难点主要体现在研发可压缩和优化的模型,以解决硬件的约束。
问:大模型引用到手机等终端设备,面临哪些个人隐私等风险问题?
江天:在用户隐私和安全层面,硬件厂商引入大模型到终端,好处在于终端执行AI任务可以减少敏感数据在云端传输的需求,提高用户数据的隐私安全。安全层面的难点在于终端执行 AI 任务可能面临更高的风险,攻击者可能试图利用 AI 模型或训练数据进行逆向工程、恶意操纵或模型攻击,这是一个非常大的安全挑战。
关于用户隐私风险规避,主要分四点:
1)数据保护:通常厂商需要确保在开发终端AI功能时,用户数据得到充分保护,通常是采取数据加密和安全传输等来防止数据泄漏和滥用;
2)本地执行:尽量在终端本地执行敏感任务,减少将用户数据传输到云端的情况,应该只有必要的信息传输到云端,而非全部原始数据;
3)权限透明:用户应该掌握对AI功能的透明度和控制权,包括哪些数据被用于训练模型,以及在何种情况下执行AI任务。厂商应提供用户可见的隐私设置,让用户根据自己的需求进行定制;
4)安全更新:厂商应及时修复终端存在的安全漏洞,定期更新,确保系统安全与稳定。
问:频繁调动大模型的成本过于昂贵,带来哪些外部机会?大模型只适合大厂开发么?成本问题如何解决?国内外大模型有哪些应对之策?
江天:从中短期来看,大模型的成本是一个问题,另一个问题是目前行业里GPU计算资源的供给严重不足,因此机会在于两方面:第一,如何为整个行业降低这种使用大模型的成本;第二:如何提供(或掌控)充足的GPU计算资源。
对于大模型厂商或者AI企业来说,主要策略无非向OEM(原始设备制造商)等渠道采购GPU,保证足够的计算资源,或者直接向云计算公司租用算力服务。英伟达在不久前推出的H100相比于A100做到了3倍效率提升,而成本只提高1.5~2倍,速度也快了2~3倍,大模型厂商购买H100用以模型训练和推理,A100作为推理;虽然英伟达一方面向市场推出更好的GPU,但是受制于整个供应链的元器组件供应不足和台积电的产能分配问题,目前市场供不应求,采购成本也很难在短期规模化降下来。
英伟达不仅仅是一家硬件厂商,也是正儿八经的软件厂商,不仅为硬件开发者提供GPU,也同样提供配套的并行计算与编程模型——CUDA,允许开发者基于英伟达的GPU进行通用的并行计算,此外CUDA还提供了丰富的编程模型和API,即使市场上短期有AMD等厂家提供了硬件性能比肩的GPU产品,如MI300,但本身这类产品的软件开发生态依然跟不上英伟达,并且也需要依赖芯片半导体的供应链,可能也涉及台积电的产能分配。
对于大模型厂商来讲,从云计算厂商租用算力资源是另一种渠道,海外大厂主要是Oracle、Azure、谷歌云以及AWS,但云计算公司提供云算力的本质还是需要向英伟达采购GPU,再搭建云服务租给AI需求的公司,英伟达会根据不同的云计算提供商的需求和客户类型来分配对应的H100配额,对于那些对英伟达有密切关系或者没有计划开发与之竞争的机器学习芯片的云计算提供商可能会获得更多的H100配额,因此大型云服务厂商中Oracle可能比谷歌云和AWS有更多的配额,而Azure主要服务OpenAI。
中小型云计算厂在海外主要是 Lambda、CoreWeave 以及 FluidStack,其中 CoreWeave 是拿到英伟达投资的厂商,凭借与英伟达的关系,目前可以说领先于 Azure、谷歌云以及 AWS。
由于大模型基于高性能的GPU硬件计算和能源消耗,因此这是一项资本投入很重的经营活动,对于今天 AI 初创企业来说,人才和资金不是最稀缺的,GPU硬件设备才是,并且在今天被视为一种“资产”,上周 Coreweave 便以英伟达H100 作为资产抵押换得 23亿美元的贷款。
因此,对于大模型厂商采购方来讲,除了直接采购GPU,在挑选云计算厂商时还要识别哪些厂商是未来一段时间真正能够提供稳定和充足供应的商家,毕竟AI窗口期,时间也是金钱。
本文独家发布于百度APP科技
举报/反馈
原文链接:https://baijiahao.baidu.com/s?id=1773558748541999998&wfr=spider&for=pc