Stable Diffusion XL 1.0初体验，效果如何？

2023 年 7 月 29 日

Stable Diffusion XL 1.0版本，江湖传说可以媲美Midjourney。期待已久。

前段时间，XL先后放出泄露版，以及版本号为0.9的测试版，但是还只能在ComfyUI 中运行，暂不支持stable-diffusion-webui，加上前些日子过于忙碌，一直没有精力折腾。

7月26日，Stability AI在几次跳票后，终于发布了Stable Diffusion XL 1.0版本，相比于之前的0.9版本，它在颜色、对比度、阴影和光照方面有了明显的改进，同时也能够生成更高分辨率（1M像素）和更多纵横比的图像。Stable Diffusion XL 1.0还支持图像修复、扩展和变换等功能，以及在图像中生成文本的能力。

AUTOMATIC1111 也快速跟进，升级到了1.5版，终于支持XL 模型。而秋叶大佬的启动器也同步更新，今天赶上周末，总算有点时间可以折腾下Stable diffusion，下载模型，升级启动器，一切简单而顺利，没有学习成本。

但是生成图片的时候，总是在最后一刻崩掉，变成了马赛克效果。无奈，只能去网上查找问题，看了一些网友的讨论，感觉是没有安装对应的VAE模型的缘故。

我一直没搞清楚VAE模型到底什么意思，有什么作用，趁这个问题，问了下New Bing，下面是它给我的答案：

VAE是变分自编码器的缩写，它是神经网络模型的一部分，它可以将图像编码和解码到和从一个较小的隐空间，从而加快计算速度。 VAE是Stable Diffusion 1.4或1.5模型的一个部分更新，它可以使眼睛的渲染更好。

老实说，还没没搞懂，不知所云，我怀疑Bing找的资料不对，人啊，还是不能过于依赖AI。不过，先不管了，我下载VAE，问题解决。

为了检验XL的能力是否被夸大，我让他生成了一组人物肖像进行测试。提示词如下，

[Name], (looking at viewer:1.2), perfect face,busy street scene, bright daylight,

怎么说呢，在人物肖像上，特别是名人的肖像，表现并不稳定。我用上面这个提示词，生成十位哲学家肖像，亚里士多德、马克思、维特根斯坦还算满意，其他的只能说凑合。整体上比起Midjourney，还有巨大的提升空间。希望后续借助各种LorA模型，可以超越Midjourney。

CC BY-NC-ND 4.0 授权