当前位置：首页 » AI资讯

AI 绘画过去也一直有研究，为什么会在最近几个月突然爆发？

2023-08-10

240

在机器学习领域，有显著的「临界点」现象。以 NLP 作为对比的话，语言模型经过这许多年的发展，从最早的基于语法规则的语言模型（乔姆斯基语言理论），到传统的统计语言模型（HMM/CRF）等，到「一切皆可 embedding」的 word2vec，再到基于 RNN 及其变体 LSTM 的语言模型，最后到以注意力机制为基础的 Transformer 强势崛起……每一波都引发了许多关注。而直到大规模的预训练语言模型如 GPT-3，T5 等被提出、训练、开放和应用，并且得到了快速增长的算力支持，包括自动对话、翻译、完形填空、文本生成等基于大规模预训练语言模型的任务才逐步从 toy 应用变的更加实用化。

AI 绘画也是如此。早在 2010 年 Google 就开始研究 AI 生成一些概念绘画。受限于算力/模型能力的支持，AI 绘画早期能够落地的应用始终在风格迁移、图片修复等辅助编辑方面。而 2022 年 AI 绘画的大规模爆发，我认为离不开如下几个关键技术的支持：

超大规模、跨模态的预训练语言模型的成熟。尽管 2022 年之前，AI 绘画一直存在，但并不能低成本地根据用户的提示生成用户想要的场景。模型在特定的数据集合上进行训练，生成的图像更多地针对该特定数据集合的一种「平均」体现，相信大家对「改变图中人物的年龄」「生成某个人群（如亚洲女性）的平均人脸」这种研究还有记忆。而类似 CLIP 等跨模态语言模型的提出和开放，则打通了「语言-视觉」中的桥梁，让「输入文字得到图片」的模式成为可能；
扩散模型的提出及效率的迅速提升。在扩散模型之前主流生成图片的方法是 VAE 和 GAN，但各有缺点，例如 GAN 的训练不稳定、生成图像的质量很难保证。diffusion 模型则相对简单，其效果也较为突出。尤其是 2022 年，基于潜在空间扩散（latent diffsion model，LDM）的模型的提出，让图像生成的效率大大提高，资源占用降低；
开源社区的支持。2021 年初，OpenAI 释出了业界第一个效果得到公认的文-图跨模态模型 CLIP，于是在 2021 年，跨模态的信息检索和匹配就成为业界应用的热点；2022 年初，OpenAI 由发表了基于 CLIP 的文-图生成模型 unCLIP，通过 CLIP + GAN 的方式生成图像，尽管生成质量还不尽如人意，但引发了较为热烈的讨论；2022 年 8 月，StabilityAI 的 stable diffusion 的发布则让图-文生成变的更加普惠：开放了模型的权重文件，并且能够在消费级的显卡上生成精细的图像。

从大众观点（而非研究者）来看，技术爆发离不开两个点：质量的提高和成本的降低。质量的提高意味着能够为该技术找到应用场景，而成本的降低意味着技术可以触达更多的人。AI 绘画在这两个方向的发展，从当前的讨论热度来看，已经达到了技术临界点。未来 AI 绘画的应用还有很多的挑战，例如：

AIGC 内容在应用场景下需要进行权-责的明确划分。对于其他的工具来讲，用户使用工具产生了不合适的、违反法律的内容——例如，使用 PS 生成色情图片，那么 PS 本身是没有责任的。对于 AIGC，现在在权责划分上还有模糊之处，这种模糊之处主要是因为：相比其他的工具，AI 对输入指定的受控性并非 100%。比如，当用户并没有使用带有恶意的 prompt，但 AI 的加工出的视觉内容带有明显的恶意，此时应该谁来负责？
AIGC 内容版权归属也是一个比较模糊的问题。从现行法律来讲，无论国内外，版权和著作权认定的前提首先为「人类（法人组织）为作者」；因此按照一般逻辑，AIGC 产生的内容并无版权才对。但从另一个角度，AIGC 产生的内容由人 + 模型共同创作完成，也就是，人类提供 prompt，模型只不过是将 prompt 转化为图形的工具，那么是否输入 prompt 的人对生成的图片具有版权和著作权利？当前的法律条文和司法实践在这中情况下仍然存在模糊地带。
AIGC 从大量数据中学习艺术家风格、构图等知识，不可避免地会引入对这些艺术家的模仿。这种模仿是否符合法律和道德，当前仍然有待商榷。
从技术本身的角度，模型仍然很难对「逻辑」产生理解，导致 AIGC 的废图率较高。从现在的社区上看，AIGC 擅长的内容仍然是场景类、概念设计等作品，人物肖像、动漫卡通风格的作品也能驾驭，但逻辑细节上仍然经不住推敲，经常有三条腿的马、指头打结的手等情况出现，物体数量和方位关系也经常出现错乱。这是由于模型的机制所限（无论对于语言模型还是扩散过程，模型都会更关注整体语义，细节上会随机自由发挥，而且「逻辑」本身就是当前神经网络技术的短板）。

利益相关：站酷最近上线了「AI 创作实验室」。AI 创作实验室基于 stable diffusion 开发，并进行了一些优化，例如对 prompt 的改写、风格和效果的微调等等。上线几天后已经生成了近 10 万张图片，一些比较优秀的作品如下：

当前无需充值，直接注册即可使用。欢迎大家尝试，希望大家都能生成满意的作品。

原文链接：https://www.zhihu.com/question/558475081?utm_division=hot_list_page

prompt 人工智能艺术

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » AI 绘画过去也一直有研究，为什么会在最近几个月突然爆发？

AI 绘画过去也一直有研究，为什么会在最近几个月突然爆发？

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签

AI 绘画过去也一直有研究，为什么会在最近几个月突然爆发？

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

小默AI工具导航网-1000+AI工具导航