或目标)所引入的模糊问题。具体来说,给定一张RGB图像,编码器会将编码到潜在表示中,解码器从潜在空间中重建图像,表示为或,其中。编码器会将图像按比例进行降采样,作者测试了多个降采样因子,其中。
为了避免潜在空间具有过大的方差,作者尝试了两种不同的正则化方法:
- KL正则化(KL-reg):类似于变分自编码器(VAE),对潜在空间施加轻微的KL惩罚,使其逼近标准正态分布。
- VQ正则化(VQ-reg):在解码器中使用向量量化层,类似于VQGAN模型,但将量化层吸收到解码器中。
与之前的工作不同,LDM在潜在空间的二维结构上进行操作,可以使用较温和的压缩率,仍然能很好地重建图像。这避免了对潜在空间进行任意一维排序,并且不会忽略潜在空间中固有的结构,从而保留了更多图像细节。
Latent Diffusion Models
Diffusion Models
扩散模型是一类概率模型,其设计目的是通过逐渐去噪一个正态分布的变量,来学习数据分布。这个去噪过程可以看作是固定长度的马尔可夫链的反向过程。对于图像合成,最成功的扩散模型依赖于变分下界(Variational Lower Bound)的一种加权变体,该变体与去噪得分匹配(denoising score-matching)相对应。
这些扩散模型可以解释为一系列去噪自编码器的等权重序列,,这些自编码器被训练来预测输入的去噪版本,其中是输入的加噪版本。相应的目标函数可以简化为:
其中,从中均匀采样。
Generative Modeling of Latent Representations
通过训练好的感知压缩模型(由编码器和解码器组成),我们现在可以访问一个高效的低维潜在空间,在这个空间中,高频且不可感知的细节被抽象化。与高维的像素空间相比,这个潜在空间更适合基于似然的生成模型,因为它能够:
1. 关注数据中重要的语义信息;
2. 在一个低维且计算更高效的空间中进行训练。
与之前依赖于自回归、注意力机制的Transformer模型在高度压缩的离散潜在空间中的工作不同,LDM可以充分利用模型提供的图像特定的归纳偏置(inductive bias)。这包括以下能力:
- 主要基于二维卷积层构建底层的UNet;
- 将目标聚焦于感知上最相关的信息,使用重新加权的下界。
重新加权的下界目标函数现在表示为:
其中,是时间条件的UNet模型。
在训练过程中,潜在表示可以通过编码器高效地从输入图像中提取,生成的样本可以通过解码器一次性解码回像素空间。
Conditioning Mechanisms
类似于其他类型的生成模型,扩散模型也能够建模条件分布。这可以通过条件去噪自编码器来实现,从而可以使用输入(例如文本、语义图或图像到图像的翻译任务)控制生成过程。
在图像生成的背景下,将扩散模型与其他类型的条件输入(如类别标签以外的输入)结合起来,目前仍是一个被较少探索的领域。为此,LDM通过增强其底层的UNet结构,并引入交叉注意力机制(cross-attention mechanism),使其成为更灵活的条件图像生成器。
交叉注意力机制
为了处理不同模态的输入(如语言提示),引入了一个特定领域的编码器,将投影到一个中间表示,然后通过交叉注意力层映射到UNet的中间层。交叉注意力机制的计算方式为:
其中:
表示UNet的中间层表示,、和为可学习的投影矩阵。
条件LDM的训练目标
基于图像和条件对,条件LDM的训练目标为:
其中和通过上述目标一起优化。这种条件机制非常灵活,可以通过不同领域的专家(例如未掩蔽的Transformer)进行参数化,当是文本提示时。
Experiments



