论文题目:PFGM++: Unlocking the Potential of Physics-Inspired Generative Models(PFGM++:释放受物理启发的生成模型的潜力)
会议:ICML2023
摘要:我们介绍了一类新的受物理启发的生成模型,称为PFGM++,它统一了扩散模型和泊松流动生成模型(PFGM)。这些模型通过在N+D维空间中嵌入路径来实现N维数据的生成轨迹,同时仍然用D个附加变量的简单标量范数来控制级数。当D=1时,新模型简化为PFGM模型;当D→∞时,新模型简化为扩散模型。选择D的灵活性允许我们在稳健性和刚性之间进行权衡,因为增加D会导致数据和附加变量规范之间更集中的耦合。我们摒弃了PFGM中使用的有偏大批量场目标,而是提供了一个类似于扩散模型的基于扰动的无偏目标。为了探索D的不同选择,我们提供了一种直接对齐方法,用于将经过良好调整的超参数从扩散模型(D→∞)转换到任意有限的D值。实验表明,在CIFAR-10/FFHQ×数据集上,具有有限D的模型可以优于已有的扩散模型,当D=2048/128时,FID得分为1.91/2.43。在类别条件设置中,D=2048在CIFAR-10上得出当前最先进的FID为1.74。此外,我们还证明了D越小的模型对建模误差的稳健性越好。
代码可在https://github.com/Newbeeer/pfgmpp上获得
PFGM++:用一个参数D统一扩散模型与泊松流生成模型
一、研究背景:两类物理启发的生成模型
近年来,受物理学启发的深度生成模型取得了令人瞩目的进展,其中两个代表性方向是:
- 扩散模型(Diffusion Models):受热力学启发,通过逐步去噪生成样本,以 EDM(Karras et al., 2022)为代表,在图像生成上取得了极高质量,但对估计误差极为敏感,鲁棒性较差。
- 泊松流生成模型(PFGM):受静电学启发,将N维数据视为电荷,在N+1维增广空间中学习电场线方向,沿电场线轨迹生成新样本,对误差更鲁棒——但仅在1维增广空间中定义,训练时需要大批量样本近似积分(有偏),且与条件生成不兼容。
这两类模型此前被视为相互独立的方法,缺乏理论联系,也无法系统地在两者之间进行性能权衡。
本文的核心问题:能否构建一个统一框架,将PFGM和扩散模型纳入同一体系,并从中找到性能更优的中间点?
二、核心思想:把增广维度D变成一个连续旋钮
【此处配图:Fig 1 PFGM++统一框架概览图(D轴从PFGM到扩散模型的谱)】
PFGM++ 的核心洞察极为简洁:将PFGM中固定的1维增广空间推广为D维增广空间,D成为一个可调超参数。
- 当 D=1 时,退化为原始 PFGM
- 当
时,等价于扩散模型
- 中间的有限D值(如D=128、D=2048)则是两者之间的"甜蜜点"
这个看似简单的推广,实际上蕴含了深刻的物理意义和数学结构。
三、PFGM++ 的数学框架
3.1 高维增广空间中的电场
将N维数据视为电荷,在N+D维增广空间
(
)中定义电场:
关键的对称性简化:增广变量 z 的D个分量在 D维柱面上具有 SO(D) 旋转对称性,因此只需追踪增广变量的标量范数
,将高维问题降维为标量ODE:
这个ODE定义了从先验分布(大处)到数据分布(r=0 处)的双射,即生成过程。
3.2 基于扰动核的无偏训练目标
原始PFGM需要大批量样本来近似电场积分(有偏),本文设计了一个扰动核:
从而将训练目标转化为类似去噪得分匹配的无偏平方损失:
这一目标的三大优势:无需大批量近似(计算高效);最小化器是电场方向的无偏估计;天然支持条件生成的配对样本训练。
3.3 超参数对齐:从扩散模型"零样本"迁移到任意D
扩散模型的超参数(、
等)已被前人大量调优。本文证明了相变对齐公式:
在此公式下,不同D的中间分布的"相"保持近似不变,从而可以直接将 EDM/DDPM 的超参数迁移到任意有限D——只需令
,
。
【此处配图:Fig 3 相对齐前后不同D的TVD曲线对比图】
3.4 D→∞ 等价扩散模型(定理4.1)
本文严格证明:当,固定
时,PFGM++ 的电场方向收敛到扩散模型的得分函数方向,且两者的采样ODE轨迹完全一致。其根本原因是扰动核在
时收敛到高斯核:
四、D 控制鲁棒性与刚性的权衡
【此处配图:Fig 4 (a)(b)(c) 不同D下的电场差异、半径分布方差、训练样本范数密度图】
D 的选择决定了模型在两个对立属性之间的平衡:
鲁棒性(Robustness):指模型对估计误差的不敏感程度。
- 小D → 训练样本范数分布宽泛(重尾),采样轨迹偏离时不会灾难性崩溃
- 大D(D→∞)→ 训练样本范数高度集中,对偏差极为敏感
刚性(Rigidity):指训练是否容易收敛。
- 大D → 扰动核接近高斯,分布集中,学习目标稳定清晰
- 小D → 重尾输入使有限容量的神经网络难以全面覆盖
两者此消彼长,既不是D=1也不是D→∞提供最优平衡,中间存在一个甜蜜点。
五、实验结果
5.1 图像生成质量
【此处配表:Table 1 CIFAR-10 FID和NFE对比表】
【此处配表:Table 2 FFHQ 64×64 FID对比表】
主要发现:
- 中间D超越扩散模型:在 CIFAR-10 无条件生成中,D=2048 取得 FID=1.91,D=128 取得 FID=1.92,均优于 EDM(D→∞,FID=1.98),均使用 35 次函数估计(NFE)。在类条件生成中,D=2048 以 FID=1.74刷新 CIFAR-10 SOTA,超过 EDM 的 1.79。
- FFHQ 64×64:D=128 取得 FID=2.43,D=2048 取得 2.46,均优于 EDM 的 2.53。
- 甜蜜点存在:D=64/128/2048 均优于 D→∞,而极小的 D(如D=1)因重尾问题性能下降,确认了中间甜蜜点的存在。
- 理论验证:D=3072000 ≫ N=3072 时,模型性能与扩散模型完全一致(FID均为1.90),验证了D→∞等价性定理。
5.2 鲁棒性对比
【此处配图:Fig 5 FID vs 噪声注入系数α 和 FID vs NFE 曲线图】
实验在三种误差源下验证鲁棒性:
(1)控制噪声注入:在每个ODE步骤注入噪声,
。当
时,D=64/128 仍能生成清晰图像,而扩散模型(D→∞)FID 从 1.98 崩溃到92.41。
(2)后训练量化:对卷积权重进行量化压缩(不重训练)。
【此处配表:Table 3 不同量化比特宽度下的FID对比表】
在 5-bit 量化下,D=64 的 FID 为 28.50,而 D→∞ 为50.09,有限 D 的优势随量化强度增加而扩大。
(3)减少采样步数(增大离散化误差):减少 NFE(即增大步长)时,D=128 与扩散模型的 FID 差距逐渐扩大,显示出更强的抗离散化误差能力。
【此处配图:Fig 8 CIFAR-10上不同D和不同α的生成图像对比(直观展示鲁棒性差异)】
【此处配图:Fig 9 FFHQ 64×64上D=128 vs EDM生成图像对比】
六、PFGM++ 与 EDM 的训练/采样算法对比
PFGM++ 对 EDM 的改动极为轻量,仅改变训练时的扰动噪声采样方式,采样阶段的 for 循环完全不变:
训练差异:
- EDM:加高斯噪声
- PFGM++:加非高斯噪声
(从扰动核
采样半径,从均匀球面分布采样方向),其中
采样差异:
- EDM:初始点
- PFGM++:初始点从
处的超柱面采样,for 循环与 EDM 完全相同
这意味着:已有的 EDM 代码只需修改约 3 行就能变成 PFGM++,工程实现极为简洁。
七、结论与展望
PFGM++ 的核心贡献是用一个参数 D 将 PFGM 和扩散模型统一在同一框架内:
- D=1 → PFGM(最鲁棒,训练最难)
- D→∞ → 扩散模型(训练最容易,最脆弱)
- 中间 D(如 128、2048)→ 甜蜜点,在 CIFAR-10/FFHQ 上超越扩散模型 SOTA,同时保持更强鲁棒性
更深远的意义在于:PFGM++ 提供了一个可解释的旋钮,让研究者可以根据任务需求(计算资源、网络规模、对误差的容忍度)灵活选择 D,而不必在 PFGM 和扩散模型之间二选一。
未来方向:为 PFGM++ 开发随机采样器(类比扩散模型的 SDE);在生物学数据等新兴领域发挥更大优势;结合网络剪枝和低比特训练进一步压缩小 D 模型。
代码开源:GitHub - Newbeeer/pfgmpp: Code for ICML 2023 paper, "PFGM++: Unlocking the Potential of Physics-Inspired Generative Models" · GitHub