伴随数据、算法、算力等核心技术的突破,AIGC正推动虚实共生趋势下内容创作的范式转变。
近年来,围绕AI生产创造、人与AI交互的讨论一直不断。而随着AI技术不断迭代,作为除UGC、PGC以外的一种新型生产方式,AIGC(AI generated content,人工智能创造内容)已从概念走向更多落地:里约奥运会上亮相的写稿机器人、北京冬奥会上备受好评的AI手语主播、还有近两年大火的“AI虚拟数字人”。
最近最出圈的“女劳模”,当属百度数字人度晓晓。她与龚俊数字人联合演唱的《每分 每秒 每天》歌曲MV刷屏全网。这是国内首个虚拟偶像AIGC歌曲,从作词到编曲均由AI“操刀”。
琴棋书画、舞文弄墨、“进厂打工”……当AI数字人开始全能,外界对于AIGC的关注度也有所提升。
展望未来,当一个更数字化的世界到来,或将成为人工智能训练效率和成本的拐点,AIGC也由此将在内容生成中占到更多比例。
在这其中,百度文心大模型作为人工智能 “基础设施”的一部分,将赋能未来的内容生产。
近年来,AI技术在内容领域的应用呈逐渐深化的态势。
从AI只是辅助内容创作的工具,到今天AI已经能够独立完成写作、设计、绘画等创意性工作。虽然行业普遍认为今天的AIGC还比较初级,但其进化的速度较为明显。
由于AI可以帮助人在生产内容的过程中完成重复性的工作,提高生产流程的自动化水平,让机器去完成创作者不愿意做的“搬砖”工作,从而提高创作者的创作效率,所以AI已被用于做一些容错率比较高的场景,比如游戏场景里大量脚本驱动的NPC用AI来替代,在影视制作中用AI剪辑替代人力。
随着AI技术的不断成熟,通过数据训练直接生成作品已不是难事。这从国内首个可交互虚拟偶像度晓晓近期的一系列“营业”中便可以窥见。
「如果你有心事,都可以讲给我听」「不如看场电影,座位就由我来定」……百度数字人度晓晓与龚俊数字人携手完成的单曲《每分 每秒 每天》歌词中,尽显度晓晓的高智商、高情商还有行动力。置身于百度APP当中的度晓晓,就能提供个性化聊天互动、陪伴娱乐、助力搜索、提供生活服务等多方面的陪伴。
和其他应用型数字人不同的是,度晓晓能够识别播报文本的语言风格和情绪,去调动和适配不同的动作和表情,更自然地演绎文本内容。并且在聊天过程中,度晓晓不仅可以根据上下文联系完成多轮互动,还能捕捉并判断用户的搜索及服务类需求。
除此之外,度晓晓近期参加高考作文挑战最终以48分的成绩“击败”全国近75%考生,创作水平较此前有大幅提升。曾多年担任北京高考语文阅卷组组长的申怡老师表示,“度晓晓作文紧扣主题、立意明确,结构完整、语言流畅,而且还善于引经据典、使用修辞手法”。
在西安美术学院2022年“时空留痕·无界西美”本科毕业展中,在一段语言描述输入后,度晓晓可以在数十秒内完成画作。西安美术学院影视动画系系主任史纲教授评价为“已经达到了本科美术生的基本要求”。
通过度晓晓一系列可见、可知、可感的应用,外界可以直观看到当前在AI技术支持下,以数字人场景为代表,AIGC能力日渐成熟。
在这背后,以人工智能为代表的技术加持,以及包括建模绑定、渲染软件、动捕设备等在内的基础设施的更新迭代,成为不可或缺的驱动力。
但痛点仍然存在。一方面,在产业链协同层面,当前大量相关技术分散在不同公司当中,面临整合的障碍。这不仅导致数字人的生产效率仍处于相对低下的阶段,也使得相应的成本难以控制。另一方面,基于技术本身,在动作捕捉采集表情/动作数据、CG技术合成等领域都存在诸多技术门槛,当前部分数字人还很难“有形”,更并不具备足够的AI能力支撑其实现“有魂”。
而前文提到的度晓晓数字人,则正展现出AI加持下更智能化的表现。
首先,在速度上,AIGC效率惊人,度晓晓能够在40秒内完成40多篇高分高考作文,平均数十秒完成一幅有主题的AI画作;其次,在百度技术支撑下的数字人已通过新闻播报员、银行智能顾问、博物馆讲解员等多种身份涉足不同行业。随着AIGC能力提升,数字人覆盖的领域将更为多元。
从互联网过往发展的历史来看,创作门槛的降低,释放了内容创造力。Web2.0时代,微博、小红书、抖音快手等兴起,让UGC成为内容创造的主流;在Web3.0时代,新一代的平台正在兴起,AIGC将成为这个时代内容创造的主流。
在近年来的发展中,也曾经出现基于单点技术把产品迅速做火的AIGC案例,但受限于此前的技术水平,大多未能“批量走出实验室”。
全球范围内,谷歌、微软、Meta等科技巨头及互联网大厂,都已在AI技术上深入多年。随着AI理解和生成能力的不断进步,在数字人、智能助手、故事生成方向上越来越多产品落地,包括引擎厂商在内的工具及平台也在加速布局AIGC。
业内人士指出,在算法公开的环境下生成内容的质量,完全取决于训练数据和训练出的模型。2021年,预训练大模型的爆发,掀起了人工智能又一波热潮,并迅速成为AI领域的技术新高地,助推人工智能从1.0的感知智能向2.0的认知智能转变。而大模型的发展,有望成为未来AIGC竞争中的科技硬实力。
度晓晓之所以能作词作曲,又能迅速创作出高分高考作文。背后核心技术,源于百度飞桨文心大模型。
百度自2019年开始便深耕预训练模型研发,成功打造飞桨文心大模型家族。文心系列模型基于持续学习的语义理解框架,从大规模知识和海量数据中融合学习,效率更高,效果更好。
怎样让数字人又快又好地掌握一项新的创作能力?比如,知识增强跨模态生成大模型ERNIE-ViLG,具备图文双向生成能力,既可以根据文本自动创作符合文字描述、且效果逼真的图像,由此度晓晓可以“望文生图”。
再比如文心大模型最新发布的融合任务相关知识的千亿大模型ERNIE 3.0 Zeus,该模型在学习海量数据和知识的基础上,进一步学习百余种不同形式的任务知识,增强了模型的效果,在各类NLP任务上表现出了更强的零样本和小样本学习能力。通俗地讲,文心大模型就像个见多识广的“尖子生”、“学霸”,它的理解能力和创作能力比传统模型更强。
此前,百度曾提出支撑大模型产业落地的3个关键路径,即搭建更适配场景需求的大模型体系、提供全流程支持应用落地的工具和方法,建设激发创新的开放生态。在AIGC领域,这3个关键路径同样重要。
有文心大模型作为“基础设施”支撑,有能够推动AIGC内容生成的平台和工具,还有文心·旸谷社区这样开放创新的社区,普通人也能够体验到大模型技术的精妙之处。AIGC时代,用户不仅是沉浸式内容的消费者,也能零门槛成为“造物者”。
现阶段,AIGC技术的持续进步,有能力推动内容生产向更有创造力、想象力的方向发展。同时,人类能够利用AIGC创作生成的内容,更快更好地实现并激发更多创意。在AIGC的发展路上,业界或许应该多些耐心,让创意“野蛮生长”。
原文链接:https://baijiahao.baidu.com/s?id=1735847333961869332&wfr=spider&for=pc