DiffusionRet

2024/9/29 读论文系列 diffusion 视频文本检索

论文发布日期：2023-08-19

发布会议/期刊：ICCV（CCF-A，顶会）

Abstract

目前的视频文本检索判别模型仍然聚焦于最大化条件似然，但是这种范式忽略了的分布，使模型对于识别分布外的数据十分苦难。
从生成的角度通过联合分布建模文本和视频的关联。通过一种扩散模型为基础的视频文本检索框架(a diffusion-based text-video retrieval framework , Diffusion-Ret)，将检索任务建模为一个从噪声中逐渐生成联合分布的任务。
训练中，DiffusionRet从生成和判别两个角度进行优化，生成器通过生成损失优化，特征提取器通过对比损失训练。这结合了两种训练方式的优势。
在MSRVTT, LSMDC, MSVD, ActivityNet Captions, and DiDeMo这几个benchmarks上实现SOTA。而且在无需修改的情况下，DiffusionRet在out-domain的检索设置下也表现良好。

Introduction

目标

视频文本检索任务中如何建模文本查询和候选视频间的联合概率，而不是给定查询去优化条件概率。

动机

目前的方法大多都是使用判别式的模型去建模跨模态的交互。在基于对比学习的判别范式下，主流方法的主要关注点是改进dense feature extractor去学习更好的表示。
从概率的角度来看，判别模型只学习条件概率分布。它们忽略建模它们所依赖的数据分布，导致它们的潜在空间包含很少的数据内在特征，而很难对不可见的数据实现良好的泛化能力。
相比于判别模型，生成模型可以捕获query和candidates的联合概率，即，这使得它们能将根据query的语义信息将数据正确投影到潜在空间，并更具概括性和迁移性，能对域外的信息做到良好的泛化。
扩散模型从粗到细的性质使其能够逐步解释文本视频之间的相关性，加强文本视频的模态交互。

方案

利用diffusion去建模联合概率，任务变成从噪声中逐渐生成联合概率分布的过程。
利用两个损失，一是生成损失(KL散度)，一是对比损失(InfoNCE)。
为了评估泛化能力提出了新的域外检索任务。在源域中，视频和文本描述配对是可见的；但在目标域中没有数据可见。

贡献

第一个从生成角度解决文本视频检索问题，第一个将扩散模型应用于跨模态检索。
MSRVTT,LSMDC, MSVD, ActivityNet Captions and DiDeMo这几个benchmarks实现SOTA。
在域外检索能力上也表现良好并且无需任何修改，有着极强的泛化能力。

Related Work

Text-Video Retrieval

大多数工作将文本和视频映射到同一潜在空间中直接进行相似度计算，例如：

CLIP4CLIP将预训练视觉模型应用于这个任务，并探讨如何建模视频的时间维度。
EMCL-Net通过弥合视频文本间的差距提高表示能力。
HBI使用multivariate cooperative game theory将视频文本当作players来处理细粒度交互中的不确定性。

这些方法只强调条件概率分布，忽略了依赖的数据分布，导致在域外任务显示出不好的泛化能力。

Diffusion models

扩散模型一类基于热力学的随机扩散过程的神经生成模型。它通过向数据分布的样本中添加噪声，然后训练神经网络通过逐渐消除噪声来逆转该过程。

扩散模型的最新发展多数集中在生成任务，例如图像生成、自然语言生成和音频生成。

还有一些其他工作想将扩散模型应用在别的任务，例如image segmentation, visual grounding and detection。

之前没有工作将扩散模型应用于跨模态检索任务，这项工作将文本和视频之间的相关性建模为它们的联合概率并利用扩散模型逐渐从噪声中生成联合概率分布来解决这一差距。

Method

Existing Solutions: Discriminant Modeling

检索最常用的方法是相似性学习。具体来说，文本和视频被表示在一个可以直接用点乘计算相似度的多维度嵌入空间，这种方法用logits来计算后验概率：

其中是温度超参数。和分别是文本特征提取器和视频特征提取器的参数。

最后，现有方法根据后验概率对所有视频候选项进行排序。同样，在视频到文本检索中，他们根据对所有文本候选项进行排序。通过最小化对比学习损失来优化文本特征提取器和视频特征提取器的参数：

其中是文本-视频对的语料库。

这种学习策略等同于最大化条件似然，即，被称为判别训练。

由于现有方法直接建模条件概率分布，而不考虑输入分布和，因此在未见数据上无法实现良好的泛化。

DiffusionRet: Generation Modeling

给定一个查询和个候选，作者的目标是从高斯噪声中合成分布。与通常优化后验概率的先前工作不同，本文的方法构建联合概率：

其中是生成器的参数。

值得注意的是，生成器的学习目标等同于近似数据分布，即，这被称为生成训练。

Text-Frame Attention Encoder

对于文本表示，采用CLIP (ViT-B/32)的文本编码器，并将[CLS]标记的输出作为文本表示，其中是维度的大小。
对于视频帧表示，从视频clip中均匀提取帧作为输入帧序列。然后，使用ViT对帧序列进行编码，并调整[CLS]标记的输出作为帧嵌入。提取帧嵌入后，使用4层transformer聚合所有帧的嵌入，得到帧表示。
对于两者交互，将帧表示用文本-帧注意编码器聚合。作者将文本表示作为查询，帧表示作为键和值输入到注意模块中。最终视频表示定义为：
其中是trade-off超参数。较小的允许视觉特征在聚合时考虑更多的文本信息。

Query-Candidate Attention Denoising Network

首先将文本表示投影到查询中，并将视频表示投影到键和值中，其中是视频候选项的数量。投影被公式化为：

其中、和是投影矩阵。“Proj”将噪声级别(类比step)投影到维嵌入。

为了给具有更高联合概率的先前噪声级别的视频候选项赋予更多权重，作者将分布添加到注意力权重中。注意力机制可以定义为：

作者将注意力模块的输出视为高语义级别的嵌入，其中包含文本查询信息。

然后，作者将视频表示和嵌入连接起来，生成去噪解码器的输入数据。去噪解码器是一个多层感知器 (MLP)，其中包含一个带有ReLU激活函数的线性层用于编码特征，以及用于计算输出分布的线性层。

类似地，在视频到文本的检索中，作者将视频表示的投影作为查询，并将文本表示的投影作为键和值输入到注意力模块中。输出分布以相同的方式计算。

Optimization from both Generation Perspective and Discrimination Perspective

为了利用生成方法和判别方法两者的优点，作者从生成和判别的角度分别优化了提出的生成模型。

Probabilistic Diffusion (Generation Perspective)

在生成视角中，作者将分布模型化为长度马尔科夫链的反向扩散过程。具体来说，作者提出的方法通过逐步去噪从高斯分布采样的变量来学习文本和视频的联合分布。在一个前向扩散过程中中，从高斯分布采样的噪声在每个噪声级别添加到真实数据分布中：

其中决定了噪声的影响，该值逐渐增加。我们可以通过以下公式采样：

其中和。是从采样的噪声。

作者在这不是类似DDPM预测噪声成分，而是预测数据分布本身，即。扩散模型的训练目标可以定义为：

这个损失通过将和更加接近来最大化的似然。

Contrastive Learning (Discrimination Perspective)

在判别视角中，作者优化输入生成器的特征，使这些特征包含判别性的语义信息。作者在tokens级别对齐文本和视频的表示。具体来说，作者将文本编码器输出的所有tokens作为词级特征，其中是文本的长度。帧级特征是视频编码器输出的所有tokens，其中是视频的长度。然后，我们计算对齐矩阵，其中

是第个词和第帧之间的余弦相似度。

总相似度得分由两部分组成：文本到视频的相似度和视频到文本的相似度。对于文本到视频的相似度，我们首先计算第个词的最大对齐得分。然后取所有词的加权平均最大对齐得分。对于视频到文本的相似度，我们取所有帧的加权平均最大对齐得分。总相似度得分可以定义为：

其中和是文本词和视频帧的权重。

然后，对比损失可以表示为：

其中是文本和视频之间的相似度得分。是温度超参数。此损失在表示空间中将语义相似的文本和视频拉得更近，从而帮助扩散模型生成文本和视频的联合分布。

Experiments

Experimental Settings

Datasets

MSRVTT
LSMDC
MSVD
ActivityNet Captions
DiDeMo

Metrics

Recall at rank K (R@K)
the Sum of Recall at rank {1, 5, 10} (Rsum)
Median Rank (MdR)
mean rank (MnR)

Implementation Details

pre-trained model: CLIP (ViT-B/32)
dimension of the feature: 512
temporal transformer
- 4-layer blocks,each including 8 heads and 512 hidden channel
- temporal position embedding and parameter: initialized from the text encoder of the CLIP
optimizer: Adam
batch size: 128
The initial learning rate is 1e-7 for the text encoder and video encoder and 1e-3 for other modules
temperature: 0.01 and: 1
For short video datasets, i.e., MSRVTT, LSMDC, and MSVD, the word length is 32 and the frame length is 12
For long video datasets, i.e., ActivityNet Captions and DiDeMo, the word length is 64 and the frame length is 64
The training is divided into two stages:
- In the first stage, we train the feature extractor from the discrimination perspective
- In the second stage, we optimize the generator from the generation perspective
For the MSRVTT and LSMDC datasets, the experiments are carried out on 2 NVIDIA Tesla V100 GPUs
For the MSVD, ActivityNet Captions, and DiDeMo datasets, the experiments are carried out on 8 NVIDIA Tesla V100 GPUs

In both of the tasks of text-to-video and video-to-text retrieval, we assume that only the candidate sets are known in advance. In the inference phase, we consider both the distance of video and text representations in the representation space and the joint probability of video and text(不是特别懂)

Comparison with State-of-the-art

QB-Norm

[2112.12777] Cross Modal Retrieval with Querybank Normalisation (arxiv.org)

Ablation Study

Generation loss type

mean-squared loss (MSE)
Kullback-Leibler (KL) divergence

Sampling strategy

因为我们的神经网络每次都是预测原始的分布，而不是预测噪声，因此用没有消去的公式去噪。

DDPM(马尔可夫链过程)
反向去噪采样过程

反向去噪无法跳步,,
DDIM(非马尔可夫链过程)
反向去噪采样过程
$$
P(x_{t-1} | x_t, x_0)
( x_0 + , ² )
$$
其中的和可以相隔多个迭代步数

Schedule of

The schedule ofcontrols how the step size increases.

linear schedule
cosine schedule

调度策略（Schedule of β）指的是在扩散过程的不同步骤中，( _k ) 如何变化。常见的调度策略包括线性调度（Linear Schedule）和余弦调度（Cosine Schedule）。调度策略影响每个扩散步骤中噪声的添加速率和方式，从而影响模型的训练和生成效果。
线性调度（Linear Schedule）
线性调度策略下，在每个步骤中线性增加：\)$
k = {} + ({} - {})
$$
其中：
和分别是开始和结束时的值。
是总的扩散步骤数。
余弦调度（Cosine Schedule）
余弦调度策略下，随扩散步骤通常按如下余弦函数变化：
或者更复杂的余弦调度形式，根据具体实现可能会有所不同

Training strategy

pure discriminant training
pure generative training
hybrid training method

The number of steps

10,50,100,1000

Scale of

The scale ofindicates the signal-to-noise ratio(信噪比) of the diffusion process

扩散过程的核心公式为：

其中是第步的样本,是第步的噪声系数,表示高斯分布。
为了调整噪声的强度，可以对所有的进行缩放：

其中是缩放因子（Scale Factor），取值范围为到。

The Efficiency of DiffusionRet

Lightweight denoising network(2.50 M parameter)
Efficient feature extractor(only uses vanilla transformer to extract features)
Scalability(can increase the number of diffusion steps to boost performance at a negligible time cost)

Out-domain Retrieval

Qualitative Analysis

Why Diffusion Models

the coarse-to-fine nature of the diffusion model enables it to progressively uncover the correlation between text and video
the many-to-many nature of the diffusion model makes it more suitable for generating joint probabilities than the auto-regressive networks

Conclusion

提出了DiffusionRet，从生成和判别两个角度去优化模型，并且将检索任务重新建模为生成联合概率的任务
提出了一个新的任务，就是在源域训练，在目标域评估，以衡量模型对域外数据的泛化能力

LOADING