千呼万唤始出来。足足酝酿了一年多之后,Stable Diffusion3终于亮相了。
据介绍,这是Stability AI最强大的文本到图像模型。使用了类似于Sora模型的Diffusion Transformer架构。
相比于上一个版本,Stable Diffusion3进化了三大能力,在单词拼写能力、多主题提示multi-subject
prompts)、图像质量方面大幅提升。
根据Stability AI在官网上给出的效果图,我们也可以感受下Stable Diffusion3的实力。
先来看下文字渲染能力。
Prompt: Epic anime artwork of a wizard atop a mountain at night casting a
cosmic spell into the dark sky that says “Stable Diffusion 3” made out of
colorful energy.
提示词:史诗般的动漫艺术作品,描绘了一位巫师在夜间在山顶上向黑暗的天空施放宇宙咒语,上面写着由彩色能量制成的“稳定扩散3”。
Prompt: cinematic photo of a red apple on a table in a classroom, on the
blackboard are the words “go big or go home” written in chalk.
提示词:教室桌子上红苹果的电影照片,黑板上用粉笔写着“go big or go home”。
下图是官网上展示的路牌、公交灯牌的霓虹效果。
可以看出,这些效果图不仅文字清晰而且也没有任何拼写错误。
另一个亮点是**“多主题生成”**。提示词中允许包含多个主题,多种多样的物品,甚至水印。
Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink
umbrella, on the ground next to the pig is a robin bird wearing a top hat, in
the corner are the words “stable diffusion”.
提示词:一幅画作,描绘了一位宇航员骑着一头穿着芭蕾舞裙的猪,手里还撑着一把粉色雨伞。在猪旁边,一只戴着高顶礼帽的知更鸟静静伫立。画面一角,写着‘Stable
Diffusion’。”
**还有一个亮点就是“超高画质”。**例如下面这张变色龙特写照片。
Prompt: studio photograph closeup of a chameleon over a black background.
提示词:黑色背景下变色龙的工作室照片特写。
不管是实现完整的句子和一致的风格,还是用一句话描绘出万千世界,或是展示超高画质,现在Stable Diffusion3似乎都能信手拈来。
一些Stability.ai的员工也在社交媒体晒了一些图。
Prompt: Trees photographed under the Milky Way, the moon and twilight shine on
the Valley. The full moon appears high in the sky and the twilight glow can
still be seen.
提示词:在银河下拍摄树木,月亮和暮光照射在山谷上。满月高挂在天空中,暮色的光芒仍然可见。
Prompt: Photo of an 90’s desktop computer on a work desk, on the computer
screen it says “welcome”. On the wall in the background we see beautiful
graffiti with the text “SD3” very large on the wall.
提示词:办公桌上 90 年代台式电脑的照片,电脑屏幕上写着 “欢迎”。在背景墙上,我们看到了美丽的涂鸦,"SD3 "字样非常醒目。
Prompt: Night photo of a sports car with the text “SD3” on the side, the car
is on a race track at high speed, a huge road sign with the text “faster”.
提示词:一辆跑车的夜间照片,侧面写着“SD3”文字,汽车在赛道上高速行驶,巨大的路标写着“更快”的文字。
以上是Stability AI员工@andrekerygma和@EMostaque做的一些图片。
他们做的另外的图片还被其他用户拿来和和SDXL和DELL-E做了一番对比。同样的Prompt,效果如何大家自行品鉴。
Prompt:A horse balancing on top of a colorful ball in a field with green grass
and a mountain in the background.
提示词:在一片绿草如茵的田野上,一匹马在一个五颜六色的球上面保持平衡,背景是一座山。
Prompt:Wide photo of a shipwreck on the beach, lots of rust and moss on the
ship contrasting with the beautiful blue of the ocean water and the peace that
the beauty of nature conveys. The big waves are magnificent and touch the
ship.
提示词:海边沉船的宽幅照片,船上的大量锈迹和苔藓与海水的美丽蔚蓝形成鲜明对比,大自然的美给人带来宁静。大浪波澜壮阔,触及船只。
Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green
triangle, on the right is a dog, on the left is a cat.
提示词:一张红色球体位于蓝色立方体之上的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫。
Prompt:Three transparent glass bottles on a wooden table. The one on the left
has red liquid and the number 1. The one in the middle has blue liquid and the
number 2. The one on the right has green liquid and the number 3.
提示词:木桌上放着三个透明玻璃瓶。左边的是红色液体,数字是 1。中间的是蓝色液体,数字是 2。右边的是绿色液体和数字 3。
Prompt:Anime style illustration of a newsstand on top of a small grassy hill,
on top of the newsstand we see the text “it’s here!”. In the background we see
a big rain approaching.
提示词:一幅动漫风格的插图,画的是小草山顶上的一个报刊亭,在报刊亭的顶部,我们看到 "它来了!"的文字。背景是一场大雨即将来临。
通过对比,可见目前 Diffusion
3基本上能很好地展现提示词内容,并表现出开始理解物理世界的能力。比如,马的那幅图,还能看到马踩在球上,球发生了形变。
还有用户用同样的提示词,把Stable Diffusion 3和Midjourney生成的效果图做了对比。
Midjourney与Stable Diffusion3谁更加优秀,大家自行判断。
从目前展现出的能力来看,Stable Diffusion 3已经完全可以当做日常的作图使用。
值得一提的是**,Stability AI 近几个月也在开发 3D 图像生成和视频生成功能。**
Stable Video也正式开放公测了,支持图生视频和文生视频,官网上也展示了一些例子。
不过,有网友试玩了 Stable Video 后发出评论:“越来越期待 Sora 了”。
该网友表示,“用自己的照片试用了一下 StableVideo,发现只有没有脸的图才能有比较好的生成结果,有脸的都崩了。”其他网友补充称,有脸的图调低
motion 值也可以得到相对正常的结果,但会很卡顿。
有人说,Stability AI推出Stable Diffusion 3,是为了应对Sora带来的行业冲击。
此番更新,Stable Diffusion
3引入一系列先进的技术改进。其中,新型的扩散变换技术为模型提供了更强大的图像生成能力,能够逐步构建图像的细节,生成高质量的视觉内容。同时,流匹配技术的运用进一步增强了生成图像的质量和多样性,使得模型能够更好地理解和模拟图像中的动态元素和结构。
不过,就目前来看,在文生视频领域,很多竞品在Sora面前还不堪一击。
但由于AIGC刚刚爆火,网上相关内容的文章博客五花八门、良莠不齐。要么杂乱、零散、碎片化,看着看着就衔接不上了,要么内容质量太浅,学不到干货。
这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。
有需要的朋友,可以长按下方二维码,免费领取!
AIGC所有方向的学习路线思维导图
这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
AIGC工具库
AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
有需要的朋友,可以点击下方卡片免费领取!
精品AIGC学习书籍手册
书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。
AI绘画视频合集
我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。
有需要的朋友,可以长按下方二维码,免费领取!
原文链接:https://blog.csdn.net/Eqiqi/article/details/145277719?ops_request_misc=%257B%2522request%255Fid%2522%253A%25228a13b6807b7c4ff25d7a0b7ce24c4b0b%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=8a13b6807b7c4ff25d7a0b7ce24c4b0b&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-8-145277719-null-null.nonecase&utm_term=midjourney+%E5%92%92%E8%AF%AD