目录
一、前言
二、Stable Diffusion是什么
(一)基本定义
(二)核心思想
(三)一句话理解
三、Stable Diffusion整体架构
(一)文本编码器(Text Encoder)
(二)U-Net去噪模型
(三)VAE解码器
四、Stable Diffusion生成流程
(一)完整流程
(二)核心流程理解
五、潜空间扩散(核心创新)
(一)传统扩散模型问题
(二)Stable Diffusion改进
(三)优势
六、VAE在Stable Diffusion中的作用
(一)编码阶段
(二)解码阶段
(三)本质
七、U-Net去噪网络结构
(一)核心作用
(二)结构特点
(三)输入输出
八、文本条件控制(CLIP)
(一)作用
(二)机制
(三)条件融合方式
九、Cross Attention机制(核心关键)
(一)作用
(二)计算方式
(三)理解方式
十、Stable Diffusion训练目标
(一)核心损失函数
(二)含义
(三)本质
十一、Classifier-Free Guidance(CFG)
(一)作用
(二)公式思想
(三)效果
十二、Stable Diffusion生成过程
(一)初始化
(二)逐步去噪
(三)最终输出
十三、Stable Diffusion vs 传统Diffusion
十四、Stable Diffusion优势
(一)高效生成
(二)文本控制强
(三)生态丰富
十五、Stable Diffusion局限性
(一)细节依赖VAE
(二)文本理解有限
(三)算力仍较高
十六、Stable Diffusion扩展方向
(一)ControlNet
(二)LoRA
(三)SDXL
(四)多模态扩展
十七、Stable Diffusion结构总结
十八、总结
一、前言
在生成式AI领域,Stable Diffusion几乎已经成为“文生图”的代名词。
与早期的扩散模型相比,它有一个关键突破:
不再直接在像素空间生成,而是在潜空间(Latent Space)生成这使得它具备:
更快的生成速度
更低的计算成本
更高的可扩展性
二、Stable Diffusion是什么
(一)基本定义
Stable Diffusion是一种:
基于潜空间扩散模型的文本条件图像生成模型(二)核心思想
文本 → 语义空间 → 潜空间扩散 → 图像解码(三)一句话理解
在“压缩后的图像空间”里做扩散生成三、Stable Diffusion整体架构
Stable Diffusion由三个核心模块组成:
(一)文本编码器(Text Encoder)
通常使用:
CLIP Text Encoder
作用:
将文本转换为语义向量(二)U-Net去噪模型
作用:
在潜空间中逐步去噪生成图像特征(三)VAE解码器
作用:
将潜空间特征还原为像素图像四、Stable Diffusion生成流程
(一)完整流程
Text Prompt ↓ Text Encoder ↓ Condition Embedding ↓ Latent Noise ↓ U-Net Denoising ↓ Latent Image ↓ VAE Decoder ↓ Final Image(二)核心流程理解
文本控制生成 + 潜空间扩散 + 解码输出五、潜空间扩散(核心创新)
(一)传统扩散模型问题
直接在像素空间计算成本极高(二)Stable Diffusion改进
在VAE压缩后的latent空间进行扩散(三)优势
计算量大幅减少
训练更稳定
生成速度更快
六、VAE在Stable Diffusion中的作用
(一)编码阶段
Image → Latent Representation(二)解码阶段
Latent → Image(三)本质
图像压缩与重建器七、U-Net去噪网络结构
(一)核心作用
预测噪声 ε(二)结构特点
Encoder-Decoder结构
Skip Connection
Attention模块
(三)输入输出
输入:latent + noise + text embedding 输出:noise prediction八、文本条件控制(CLIP)
(一)作用
将自然语言转换为可计算向量(二)机制
Tokenization
Transformer编码
向量语义空间
(三)条件融合方式
通常采用:
Cross Attention
九、Cross Attention机制(核心关键)
(一)作用
让图像特征“关注文本信息”(二)计算方式
Attention(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d}})V
(三)理解方式
图像查询文本语义十、Stable Diffusion训练目标
(一)核心损失函数
L=\mathbb{E}{x,t,\epsilon}[|\epsilon-\epsilon\theta(x_t,t,c)|^2]
(二)含义
x_t:带噪latent
c:文本条件
εθ:预测噪声
(三)本质
学习“文本条件下的去噪能力”十一、Classifier-Free Guidance(CFG)
(一)作用
增强文本控制能力(二)公式思想
结合有条件和无条件预测(三)效果
提高图像与文本一致性
增强生成质量
十二、Stable Diffusion生成过程
(一)初始化
xT ~ N(0, I)(二)逐步去噪
xT → xT-1 → ... → x0(三)最终输出
latent → VAE decode → image十三、Stable Diffusion vs 传统Diffusion
| 对比项 | 传统Diffusion | Stable Diffusion |
|---|---|---|
| 计算空间 | 像素空间 | 潜空间 |
| 速度 | 慢 | 快 |
| 成本 | 高 | 低 |
| 可扩展性 | 一般 | 强 |
十四、Stable Diffusion优势
(一)高效生成
潜空间计算减少复杂度(二)文本控制强
CLIP + Cross Attention
(三)生态丰富
LoRA
ControlNet
DreamBooth
十五、Stable Diffusion局限性
(一)细节依赖VAE
压缩损失影响质量
(二)文本理解有限
复杂语义容易偏差
(三)算力仍较高
高分辨率生成成本大
十六、Stable Diffusion扩展方向
(一)ControlNet
增加结构控制能力
(二)LoRA
轻量微调模型
(三)SDXL
更高质量版本
(四)多模态扩展
文生视频
文生3D
十七、Stable Diffusion结构总结
Text → CLIP Encoder ↓ Cross Attention ↓ U-Net (Latent Denoising) ↓ VAE Decoder ↓ Image十八、总结
Stable Diffusion通过“潜空间扩散 + 文本条件控制 + U-Net去噪 + VAE解码”的组合,实现了高效且高质量的文本生成图像能力,是当前生成式AI最重要的基础模型之一。
本文系统讲解了:
1、Stable Diffusion基本概念
2、整体架构设计
3、潜空间扩散机制
4、VAE作用
5、U-Net结构
6、CLIP文本编码
7、Cross Attention
8、训练目标
9、CFG机制
10、生成流程
11、优缺点分析
12、扩展方向
可以将Stable Diffusion理解为:
“一个在潜空间中进行扩散去噪,并由文本语义引导生成图像的高效生成系统。”
掌握Stable Diffusion,就掌握了当前文生图技术的核心工程实现范式。