下班1小时Day6 | Stable Diffusion学习

📅 2026/7/2 1:22:26
下班1小时Day6 | Stable Diffusion学习
Stable Diffusion 的核心并不是“直接在高清像素上作画”而是把图像压缩到 latent space在更低维的表示中进行扩散去噪再通过 VAE Decoder 还原成图像。文本 Prompt 经 Text Encoder 转为条件向量U-Net 在 Cross-Attention 的调制下预测当前 latent 中的噪声Sampler 按时间步不断更新最终得到干净 latent。这种 Latent Diffusion 思路显著降低了计算与显存成本也让文本控制、图像编辑和可控生成更易扩展。但它并非万能细节、文字、真实性和偏见问题仍需人工判断与安全约束。理解 Stable Diffusion关键是抓住“文本条件 latent 去噪 VAE 解码”这条主线。