2月16日,曾以大模型ChatGPT震惊全球的人工智能科技公司OpenAI时隔约一年再次祭出新“王炸”——文生视频大模型Sora。只需向其输入一段文本指令,即可生成一段60秒的视频,画面效果精致细腻,几可乱真。
从生成文本、图片,到如今的视频领域,业内不禁惊呼“AI成长速度比想象中更快!”有人对此振奋,认为Sora的出现或意味着通用人工智能的实现时间大幅缩短。而也有人表达担忧:“我们是否真的准备好了?”但无论如何,一场由AI领衔的“新工业革命”浪潮的气息似乎已扑面而至。
视频行业将迎巨变
Sora何以惊艳全球?事实上,它并非首个文生视频大模型。此前,科技巨头谷歌、创业公司Runway、Pika Labs等都已布局这一赛道,也有相关应用问世。但相比此前发布的应用,Sora将生成视频的时间大幅延长至60秒,其画面在细致逼真、流畅程度、三维空间多角度呈现等方面也有明显提升。
Sora的横空出世让AI浪潮更直接地席卷至视频领域。“太震撼,感觉要丢饭碗了。”北京某文化传播有限公司创始人胡娟坦言,自己的公司专注拍摄企业宣传片、广告片、短视频等,Sora让她危机感陡增,“这些可能变成AI学习的样板,一些复杂的特效制作,以前工期至少得好几天,但AI将其缩短到了几分钟。”开设了个人工作室的摄影师李浩楠也认为,Sora对影视相关的产业影响比较大,能大幅拉低制作成本,特别是涉及多角度多机位的视频,如果AI能够部分替代人工拍摄和剪辑,“成本可能只要原有的十分之一”。
Sora的技术突破也让大大小小生成式AI创业公司和投资机构的前景变得充满挑战。某专注全球早中期企业的风投公司运营合伙人罗超表示,Sora表现出的领先性让Runway、Pika Labs等视频生成大模型明星公司面临强力冲击,而相比这些自研大模型的公司,纯做应用的创业公司则更加前途未卜。在AI生成视频应用和技术服务商新壹科技CEO雷涛看来,Sora的诞生,无疑会改变AI视频生成市场格局。“就国内而言,要看哪些企业能结合、利用新技术,完善符合国情的产品,比如提供定制化的视频生成服务、跨业态合作等。”
通用人工智能或加速实现
而跳出视频领域,更为深广的变革也已大步向前。
小狗在雪地玩耍溅起纷飞的雪粒,毛茸茸的毛发根根分明、随风浮动;咖啡杯里,一只帆船掀起翻涌的波浪水纹;不同角度的街景通过运镜流畅地呈现……在Sora此次展现的一批生成视频样本中,360集团创始人周鸿祎谈到了几个让他印象深刻的镜头,“我们知道动物的毛发、水波纹等,在传统的3D建模中是非常复杂的,需要耗费大量的人力和时间去制作,但Sora为什么能够如此快速地生成?”
对此,周鸿祎提出了自己的猜想。他认为,Sora或已经具备了“观察并模拟世界的能力”。“就好像一位人类画师,他脑海中有着对世界的认知,就可以画出来,而不需要通过每根毛发、每个点去建模。”
基于这种猜测,周鸿祎认为Sora的颠覆性绝不仅仅限于一个文字生成视频的工具,而是通用人工智能对世界的理解又一次得到了突破。一年前,ChatGPT标志着人工智能对人类语言和知识的理解达到了一个突破点。而除此之外,这个世界还有很多规律,例如小狗拱雪雪会留在鼻子上、无人机在空中飞时视角如何变换等,而Sora目前生成的视频,显示它对这个世界的规律有了更为完整的了解。而这意味着,通用人工智能时代或将加速到来。
面对变革我们准备好了吗?
虽然惊艳,但Sora目前生成的展示视频仍有不少“穿帮”镜头。比如,在展示一名老奶奶吹蜡烛的视频中,老奶奶吹气后蜡烛却没有熄灭;在另一段玻璃杯从空中坠落的视频中,玻璃杯被抬到半空时,桌上就已经有水流出来了。
这也是目前这一大模型所展现出的明显短板——不懂物理世界。对于这一弱点,OpenAI也不避讳,坦言Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。“我们正在教AI理解和模拟运动中的物理世界。”OpenAI称,他们的目标是训练模型,从而帮助人们解决需要现实世界交互的问题。
从GPT到Sora,AI的成长速度让人惊叹。而面对可能袭来的“新工业革命”,我们真的准备好了吗?在中国政法大学传播法研究中心副主任朱巍看来,大模型所生成的视频代表着AI对这个世界规律的理解,但这不一定都是正确的,因此也让“眼见不一定为实”。根据此前国家网信办等部门发布的《生成式人工智能服务管理暂行办法》,AI生成视频应进行相关标识,以免形成误导。此外,创作者仅用一段文字就能生成视频,极大地降低了视频制作门槛,这一视频的版权归属等问题也需要重新梳理界定。
原文链接:https://baijiahao.baidu.com/s?id=1791324477137614599&wfr=spider&for=pc