人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

中秋专题:火爆艺术圈的文本图像生成是什么?

2024-05-26 62

最近文本生成图像AI又火爆了起来,并且频频上热搜,在知乎热榜上都会看到相关的问题出现:

游戏设计师利用AI工具作画拿到一等奖:说的是美国的一位画师利用AI工具进行作画,并拿到了一等奖,从而惹来了大量的争议

由于AI图像生成软件Midjorunery的爆火,导致大量的日本画师纷纷进行抵制

而伴随着Stable Diffusion,DALLE-2,Imagen等AI文本图像生成模型的出现,作画这个行业“已死”的论调已蔓延开来。同时绘画行业,成为人们在AlphaGo出现征服围棋领域后,第二个比较担忧的领域。

在8月22日左右,AI文本生成图像圈又开源了一个比较火爆的项目:Stable Diffusion;其一推出,github累积星星数已经到达3.6k。

同时,在官方文档中介绍,这个模型能够在CPU中,几秒内生成图片。同时生成的图片,一点也不逊色于DALLE-2和Imagen等AI模型。

由于今天是中秋节,刚好我以“兔子”和“月亮”为关键词,生成的一些图片:

I want to dream of seeing the rabbit in the moon

Reddit is looking the moon.

Stable Diffusion

这个模型大体框架主要用到扩散模型,之前我也有一篇文章介绍过:

扩散模型有两个过程,分别为扩散过程和逆扩散过程。

在扩散过程中,如上图所示从右到左,表示对图片进行加噪。这个过程符合马尔可夫过程,也即是从真实图片中不断加入噪声,最终得到噪声图片 。

而在逆扩散过程中,则需要从噪声图片 ,逐渐恢复得到原图,也就是通过训练网络,从左到右逐渐还原回

但是一般的扩散模型,需要在像素级别上进行重建任务,这样会导致训练的时候成本比较昂贵。因此这篇文章主要是把图像压缩到较低维度的潜在空间中进行表示,然后利用上下文(NLP语言),进行去噪操作。

如果大家真的想体验类似的功能,可以去Stable Diffusion地址体验

网页版:

https://beta.dreamstudio.ai/dream

Hugging Face模型网站:

https://huggingface.co/spaces/stabilityai/stable-diffusion

这两个网站,都可以体验到文本生成图片模型:

如果大家确实感兴趣,后续可以出一期部署项目的教程。

最后再给大家看看我生成的“兔子赏月图”吧,祝大家中秋节快乐,阖家安康~

我是leo,欢迎关注我的知乎/公众号“算法一只狗”,我们下期再见。

原文链接:https://cloud.tencent.com/developer/article/2151033

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部