最近文本生成图像AI又火爆了起来,并且频频上热搜,在知乎热榜上都会看到相关的问题出现:
游戏设计师利用AI工具作画拿到一等奖:说的是美国的一位画师利用AI工具进行作画,并拿到了一等奖,从而惹来了大量的争议
由于AI图像生成软件Midjorunery的爆火,导致大量的日本画师纷纷进行抵制
而伴随着Stable Diffusion,DALLE-2,Imagen等AI文本图像生成模型的出现,作画这个行业“已死”的论调已蔓延开来。同时绘画行业,成为人们在AlphaGo出现征服围棋领域后,第二个比较担忧的领域。
在8月22日左右,AI文本生成图像圈又开源了一个比较火爆的项目:Stable Diffusion;其一推出,github累积星星数已经到达3.6k。
同时,在官方文档中介绍,这个模型能够在CPU中,几秒内生成图片。同时生成的图片,一点也不逊色于DALLE-2和Imagen等AI模型。
由于今天是中秋节,刚好我以“兔子”和“月亮”为关键词,生成的一些图片:
I want to dream of seeing the rabbit in the moon
Reddit is looking the moon.
Stable Diffusion
这个模型大体框架主要用到扩散模型,之前我也有一篇文章介绍过:
扩散模型有两个过程,分别为扩散过程和逆扩散过程。
在扩散过程中,如上图所示从右到左,表示对图片进行加噪。这个过程符合马尔可夫过程,也即是从真实图片中不断加入噪声,最终得到噪声图片 。
而在逆扩散过程中,则需要从噪声图片 ,逐渐恢复得到原图,也就是通过训练网络,从左到右逐渐还原回 。
但是一般的扩散模型,需要在像素级别上进行重建任务,这样会导致训练的时候成本比较昂贵。因此这篇文章主要是把图像压缩到较低维度的潜在空间中进行表示,然后利用上下文(NLP语言),进行去噪操作。
如果大家真的想体验类似的功能,可以去Stable Diffusion地址体验
网页版:
https://beta.dreamstudio.ai/dream
Hugging Face模型网站:
https://huggingface.co/spaces/stabilityai/stable-diffusion
这两个网站,都可以体验到文本生成图片模型:
如果大家确实感兴趣,后续可以出一期部署项目的教程。
最后再给大家看看我生成的“兔子赏月图”吧,祝大家中秋节快乐,阖家安康~
我是leo,欢迎关注我的知乎/公众号“算法一只狗”,我们下期再见。
原文链接:https://cloud.tencent.com/developer/article/2151033