Stable Diffusion XL 1.0初体验,效果如何?
Stable Diffusion XL 1.0版本,江湖传说可以媲美Midjourney。期待已久。
前段时间,XL先后放出泄露版,以及版本号为0.9的测试版, 但是还只能在ComfyUI 中运行,暂不支持stable-diffusion-webui,加上前些日子过于忙碌,一直没有精力折腾。
7月26日,Stability AI在几次跳票后,终于发布了Stable Diffusion XL 1.0版本,相比于之前的0.9版本,它在颜色、对比度、阴影和光照方面有了明显的改进,同时也能够生成更高分辨率(1M像素)和更多纵横比的图像。Stable Diffusion XL 1.0还支持图像修复、扩展和变换等功能,以及在图像中生成文本的能力。
AUTOMATIC1111 也快速跟进,升级到了1.5版,终于支持XL 模型。而秋叶大佬的启动器也同步更新,今天赶上周末,总算有点时间可以折腾下Stable diffusion,下载模型,升级启动器,一切简单而顺利,没有学习成本。
但是生成图片的时候,总是在最后一刻崩掉,变成了马赛克效果。无奈,只能去网上查找问题,看了一些网友的讨论,感觉是没有安装对应的VAE模型的缘故。
我一直没搞清楚VAE模型到底什么意思,有什么作用,趁这个问题,问了下New Bing,下面是它给我的答案:
VAE是变分自编码器的缩写,它是神经网络模型的一部分,它可以将图像编码和解码到和从一个较小的隐空间,从而加快计算速度。 VAE是Stable Diffusion 1.4或1.5模型的一个部分更新,它可以使眼睛的渲染更好。
老实说,还没没搞懂,不知所云,我怀疑Bing找的资料不对,人啊,还是不能过于依赖AI。不过,先不管了,我下载VAE,问题解决。
为了检验XL的能力是否被夸大,我让他生成了一组人物肖像进行测试。提示词如下,
[Name], (looking at viewer:1.2), perfect face,busy street scene, bright daylight,
怎么说呢,在人物肖像上,特别是名人的肖像,表现并不稳定。我用上面这个提示词,生成十位哲学家肖像,亚里士多德、马克思、维特根斯坦还算满意,其他的只能说凑合。整体上比起Midjourney,还有巨大的提升空间。希望后续借助各种LorA模型,可以超越Midjourney。