封面新闻记者 欧阳宏宇
国产人工智能带来的魔性作画已经让你审美疲劳了吗?现在,中国造的文字生成视频AIGC工具又来了。
继谷歌的Imagen和Meta的做个视频(Make-A-Video)之后,阿里达摩院也在近日放出了“文本生成视频大模型”,并在开源模型平台低调对外测试。
据介绍,该模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
简而言之,“给人工智能一段话,就能还你一段视频”;言下之意,使用AI,你也可以变成电影人。
那么,这款国产的AI文生视频产品到底好不好用?生成的视频究竟是什么样子?记者进行了测试发现,该大模型的提示词仅支持英文输入,每次视频生成的时间在1至4分钟,随后会收到一段2秒钟的视频。根据关键词的不同,所反馈的内容也有所不同,且基本都较为清晰流畅,视觉效果炫酷,只是不含音轨,偶尔还有跳帧的情况。不过,当输入的关键词偏离科学和常识后,所生成视频的画风也开始走偏……
所生成视频时长为2秒
基本符合逻辑与经验规则
记者首先选择了一些符合日常生活经验和常识的内容。话不多说,直接看效果:
熊猫吃竹子
一名男骑手骑马
大雨中走路的人
从测试的结果可以看到,目前能生成的视频长度在2秒左右,视频尺寸为256✖256,生成等候时间在1分多钟到4分多钟之间。同时,视频中的细节渲染也十分到位,诸如背景中散落的竹叶、逐渐远离的灌木、卷起大雨的狂风都在视频中表现了出来。
不过,在“一名男骑手骑马”视频中则出现了跳帧的情况:明明还是向画面右方行走的马匹突然掉头向画面深处走去,但马的后半截身子仍是向右方移动的状态。不过鉴于该大模型才刚刚上线,因此也可以理解。
根据文本关键词做视频
只是画风有点怪异
如果发挥想象力,给大模型输入一些不符合现实生活中的经验和逻辑的文本,或者一些抽象的描述,会得到什么结果?说实话,看到之后,相信这作品放到任何社交平台都是相当炸裂的存在。
两头大象在厨房忙着做饭
说实话,这视频人家做的没毛病:有大象、在厨房,虽然做的什么不太看得出来,但为了烹调站到灶台上的大象,显然已经很拼了。
贵妃醉酒
这个就更厉害了,很有复古文艺风。
再说说这贵妃,看起来雍容华贵又不失仪表端庄。结合常识来说,两旁的侍女梳的发髻就很像初唐时在宫人中很流行的半翻髻;站在中间的贵妃的发饰则很像盛唐开元年间的双鬟望仙髻……就这个对中国文化的理解就已经很让人佩服。
但是接下来的画风,就有点奇怪了。比如这个……
楚霸王在摩天大楼跳舞
这段视频看起来则是一部科幻片。
摩天大楼像是电影《盗梦空间》里的场景。另外,楚霸王项羽被塑造成了一个像外星人一样的生物,让人想起了一个动漫人物。
如果再增加一些难度,把一些不可能相关的事物联系在一起:
美丽的夏日热带海滩上,一只巨龙在吃冰激凌
这段视频,AI直接返回了一段灾难片:夏日海滩上,绿色的怪兽带着它的幼仔登上海滩觅食……给人一种异兽吞噬页游的既视感。
AI视频并非不合常识
或因数据量影响了结果
看起来,AI好像只是在根据文本描述进行要素的堆砌,几乎不考虑常识和逻辑。
那究竟是否如此?记者随后测试了,让不同的人物或事物在同一个场景下做同样的事,让AI根据“人\香蕉\猫拿着遥控器在看电视”分别生成视频,来看看又会有怎样的结果。
人拿着遥控器在看电视
猫拿着遥控器在看电视
香蕉拿着遥控器在看电视
根据返回的视频可以看到,AI生成的视频仍然是有逻辑和常识可依的。比如,人可以用手拿着遥控器,猫可以用爪子拨弄遥控器;而香蕉则不可能有手或者爪子操作遥控器,只能出现在电视画面中。出现这样的情况或许是可供AI选用的高质量数据不多,只能从现有数据中选取;而这些现有数据则是符合常识的。
文生视频尚待发展
将成为下游应用的加速器
从本质上讲,视频就是一系列图像,最理想的效果就是用户给出提示词,系统自动生成任何风格的对应视频。
根据谷歌此前发布的论文,视频生成框架是七个子视频扩散模型的级联,它们相应执行文本条件视频生成、空间超分辨率和时间超分辨率。借助整个级联,能够以每秒 24 帧的速度生成128帧1280×768的高清视频。
但在实际情况中,生成一个连贯的长视频并没有那么容易。因为在这项任务中,可用的高质量数据非常少,而且任务本身的计算需求又很大。因此,从目前此类模型生成视频的等待时间,画面的真实度、清晰度以及长度等各方面来看,距离产出令人满意的视频还有很大距离。
此外,文本的完整性也是左右文本生成视频迭代的一个瓶颈。有研究显示,像之前那种用于图像生成的简短文本通常不足以提供对视频的完整描述,视频所需要的是一系列文本或故事。研究人员表示,基于故事的条件视频生成之前从未被探索过。
不过,文本生成视频已具备巨大的市场潜力。有研报显示,从头生成视频,无需于其他视频素材,这标志着所有用户无需视频制作技巧,均可以参与到AI视频的创作中来,也标志着AIGC正式迈入了视频时代。
国盛证券表示,随着全民加入AI视频创作,算力需求将会成为更加重要的资源。在未来,算力将成为决定内容质量与商业竞争力的关键因素,即“算力即权力”。同时,AI视频的放量也将会改变目前如电商直播、产品广告、影视制作等多个行业的生态,下游应用的加速时刻也将到来。
原文链接:https://rmh.pdnews.cn/Pc/ArtInfoApi/article?id=34653871