在机器学习领域,有显著的「临界点」现象。以 NLP 作为对比的话,语言模型经过这许多年的发展,从最早的基于语法规则的语言模型(乔姆斯基语言理论),到传统的统计语言模型(HMM/CRF)等,到「一切皆可 embedding」 的 word2vec,再到基于 RNN 及其变体 LSTM 的语言模型,最后到以注意力机制为基础的 Transformer 强势崛起……每一波都引发了许多关注。而直到大规模的预训练语言模型如 GPT-3,T5 等被提出、训练、开放和应用,并且得到了快速增长的算力支持,包括自动对话、翻译、完形填空、文本生成等基于大规模预训练语言模型的任务才逐步从 toy 应用变的更加实用化。
AI 绘画也是如此。早在 2010 年 Google 就开始研究 AI 生成一些概念绘画。受限于算力/模型能力的支持,AI 绘画早期能够落地的应用始终在风格迁移、图片修复等辅助编辑方面。而 2022 年 AI 绘画的大规模爆发,我认为离不开如下几个关键技术的支持:
- 超大规模、跨模态的预训练语言模型的成熟。尽管 2022 年之前,AI 绘画一直存在,但并不能低成本地根据用户的提示生成用户想要的场景。模型在特定的数据集合上进行训练,生成的图像更多地针对该特定数据集合的一种「平均」体现,相信大家对「改变图中人物的年龄」「生成某个人群(如亚洲女性)的平均人脸」这种研究还有记忆。而类似 CLIP 等跨模态语言模型的提出和开放,则打通了「语言-视觉」中的桥梁,让「输入文字得到图片」的模式成为可能;
- 扩散模型的提出及效率的迅速提升。在扩散模型之前主流生成图片的方法是 VAE 和 GAN,但各有缺点,例如 GAN 的训练不稳定、生成图像的质量很难保证。diffusion 模型则相对简单,其效果也较为突出。尤其是 2022 年,基于潜在空间扩散(latent diffsion model,LDM)的模型的提出,让图像生成的效率大大提高,资源占用降低;
- 开源社区的支持。2021 年初,OpenAI 释出了业界第一个效果得到公认的文-图跨模态模型 CLIP,于是在 2021 年,跨模态的信息检索和匹配就成为业界应用的热点;2022 年初,OpenAI 由发表了基于 CLIP 的文-图生成模型 unCLIP,通过 CLIP + GAN 的方式生成图像,尽管生成质量还不尽如人意,但引发了较为热烈的讨论;2022 年 8 月,StabilityAI 的 stable diffusion 的发布则让图-文生成变的更加普惠:开放了模型的权重文件,并且能够在消费级的显卡上生成精细的图像。
从大众观点(而非研究者)来看,技术爆发离不开两个点:质量的提高和成本的降低。质量的提高意味着能够为该技术找到应用场景,而成本的降低意味着技术可以触达更多的人。AI 绘画在这两个方向的发展,从当前的讨论热度来看,已经达到了技术临界点。未来 AI 绘画的应用还有很多的挑战,例如:
- AIGC 内容在应用场景下需要进行权-责的明确划分。对于其他的工具来讲,用户使用工具产生了不合适的、违反法律的内容——例如,使用 PS 生成色情图片,那么 PS 本身是没有责任的。对于 AIGC,现在在权责划分上还有模糊之处,这种模糊之处主要是因为:相比其他的工具,AI 对输入指定的受控性并非 100%。比如,当用户并没有使用带有恶意的 prompt,但 AI 的加工出的视觉内容带有明显的恶意,此时应该谁来负责?
- AIGC 内容版权归属也是一个比较模糊的问题。从现行法律来讲,无论国内外,版权和著作权认定的前提首先为「人类(法人组织)为作者」;因此按照一般逻辑,AIGC 产生的内容并无版权才对。但从另一个角度,AIGC 产生的内容由人 + 模型共同创作完成,也就是,人类提供 prompt,模型只不过是将 prompt 转化为图形的工具,那么是否输入 prompt 的人对生成的图片具有版权和著作权利?当前的法律条文和司法实践在这中情况下仍然存在模糊地带。
- AIGC 从大量数据中学习艺术家风格、构图等知识,不可避免地会引入对这些艺术家的模仿。这种模仿是否符合法律和道德,当前仍然有待商榷。
- 从技术本身的角度,模型仍然很难对「逻辑」产生理解,导致 AIGC 的废图率较高。从现在的社区上看,AIGC 擅长的内容仍然是场景类、概念设计等作品,人物肖像、动漫卡通风格的作品也能驾驭,但逻辑细节上仍然经不住推敲,经常有三条腿的马、指头打结的手等情况出现,物体数量和方位关系也经常出现错乱。这是由于模型的机制所限(无论对于语言模型还是扩散过程,模型都会更关注整体语义,细节上会随机自由发挥,而且「逻辑」本身就是当前神经网络技术的短板)。
利益相关:站酷最近上线了「AI 创作实验室」。AI 创作实验室基于 stable diffusion 开发,并进行了一些优化,例如对 prompt 的改写、风格和效果的微调等等。上线几天后已经生成了近 10 万张图片,一些比较优秀的作品如下:
当前无需充值,直接注册即可使用。欢迎大家尝试,希望大家都能生成满意的作品。
原文链接:https://www.zhihu.com/question/558475081?utm_division=hot_list_page