LOADING

加载过慢请开启缓存 浏览器默认开启

LDM

image-20241012104237373

论文发布时间:2022.4

论文发布会议:CVPR

Abstract

  • 由于像素空间太大,DMs的训练通常需要上百个GPU天,并且推理十分高昂。
  • 为了在有限的计算资源上进行DM训练,同时保持质量和灵活性,可以利用自编码器的潜在空间进行训练,可以大大降低成本。
  • 将交叉注意力机制引入去噪模型架构,可以将扩散模型转为强大灵活的生成器,可用于一般条件限制输入。

Introduction

问题

如何降低扩散模型在图像合成方向的训练和推理计算量,如何实现一种有效压缩方法能保留更高层次的语义信息。

动机

  1. 目前的diffusion模型在图像合成方向取得了良好效果,但是由于其模式覆盖行为极其容易花费过多的成本,特别是在高分辨率图像中的高维空间中。因此需要提出一种方法,在不过多损害它的性能的情况下降低训练和采样复杂性。
  2. 目前的自编码器加GAN实现的感知压缩虽然去掉了图像中高频的不可感知的细节,但保留了大部分视觉内容,压缩率较低。现在需要提出一种方法进行语义压缩,有更大高压缩率的同时,保留图像中更高层次的语义信息而不是细节。

方案

两阶段训练

  1. 训练一个自动编码器,提供一个低维而有效的空间,这个空间在感知上与数据空间等价,但大大降低了计算复杂度。训练完的自编码器可以用到多个DM重复训练,有良好的可复用性。
  2. 在与数据空间感知等价的潜在空间中进行扩散模型的训练,避免了对空间的过度压缩,提升了对空间维度的扩展性。

Method

image-20241012104252187

Perceptual Image Compression

LDM的感知压缩模型基于之前的工作,结合了感知损失(perceptual loss)和基于局部的对抗性目标(patch-based adversarial objective)进行训练。这样的组合确保了图像的重建局限于图像流形(image manifold),以保持局部的真实感,并避免使用像素空间损失(如目标)所引入的模糊问题。

具体来说,给定一张RGB图像,编码器会将编码到潜在表示中,解码器从潜在空间中重建图像,表示为,其中。编码器会将图像按比例进行降采样,作者测试了多个降采样因子,其中

为了避免潜在空间具有过大的方差,作者尝试了两种不同的正则化方法:

  • KL正则化(KL-reg):类似于变分自编码器(VAE),对潜在空间施加轻微的KL惩罚,使其逼近标准正态分布。
  • VQ正则化(VQ-reg):在解码器中使用向量量化层,类似于VQGAN模型,但将量化层吸收到解码器中。

与之前的工作不同,LDM在潜在空间的二维结构上进行操作,可以使用较温和的压缩率,仍然能很好地重建图像。这避免了对潜在空间进行任意一维排序,并且不会忽略潜在空间中固有的结构,从而保留了更多图像细节。

Latent Diffusion Models

Diffusion Models

扩散模型是一类概率模型,其设计目的是通过逐渐去噪一个正态分布的变量,来学习数据分布。这个去噪过程可以看作是固定长度的马尔可夫链的反向过程。对于图像合成,最成功的扩散模型依赖于变分下界(Variational Lower Bound)的一种加权变体,该变体与去噪得分匹配(denoising score-matching)相对应。

这些扩散模型可以解释为一系列去噪自编码器的等权重序列,,这些自编码器被训练来预测输入的去噪版本,其中是输入的加噪版本。相应的目标函数可以简化为:

其中,中均匀采样。

Generative Modeling of Latent Representations

通过训练好的感知压缩模型(由编码器和解码器组成),我们现在可以访问一个高效的低维潜在空间,在这个空间中,高频且不可感知的细节被抽象化。与高维的像素空间相比,这个潜在空间更适合基于似然的生成模型,因为它能够:
1. 关注数据中重要的语义信息;
2. 在一个低维且计算更高效的空间中进行训练。

与之前依赖于自回归、注意力机制的Transformer模型在高度压缩的离散潜在空间中的工作不同,LDM可以充分利用模型提供的图像特定的归纳偏置(inductive bias)。这包括以下能力:
- 主要基于二维卷积层构建底层的UNet;
- 将目标聚焦于感知上最相关的信息,使用重新加权的下界。

重新加权的下界目标函数现在表示为:

其中,是时间条件的UNet模型。

在训练过程中,潜在表示可以通过编码器高效地从输入图像中提取,生成的样本可以通过解码器一次性解码回像素空间。

Conditioning Mechanisms

类似于其他类型的生成模型,扩散模型也能够建模条件分布。这可以通过条件去噪自编码器来实现,从而可以使用输入(例如文本、语义图或图像到图像的翻译任务)控制生成过程。

在图像生成的背景下,将扩散模型与其他类型的条件输入(如类别标签以外的输入)结合起来,目前仍是一个被较少探索的领域。为此,LDM通过增强其底层的UNet结构,并引入交叉注意力机制(cross-attention mechanism),使其成为更灵活的条件图像生成器。

交叉注意力机制

为了处理不同模态的输入(如语言提示),引入了一个特定领域的编码器,将投影到一个中间表示,然后通过交叉注意力层映射到UNet的中间层。交叉注意力机制的计算方式为:

其中:

表示UNet的中间层表示,为可学习的投影矩阵。

条件LDM的训练目标

基于图像和条件对,条件LDM的训练目标为:

其中通过上述目标一起优化。这种条件机制非常灵活,可以通过不同领域的专家(例如未掩蔽的Transformer)进行参数化,当是文本提示时。

Experiments

image-20241012104317467

image-20241012104329947

image-20241012104342254

image-20241012104424813