和。视觉编码器以原始图像或稀疏采样的视频帧作为输入,并产生输出特征。对于音频片段,首先将其分成多个 10 秒长的片段,使用零填充,转换为 64 维的对数 Mel 滤波器组频谱图,使用 25ms 的 Hamming 窗口处理后,输入到音频编码器中,得到输出特征。这些特征的全局表示([CLS] token 特征)分别记为、、和。Pretraining Objectives
Omni-Modality Video-Caption Contrastive Loss (OM-VCC)
全模态视频片段的全局表示,记为,通过concat、和获得。随后,和被投射到相同的语义空间中,经过两个线性层并归一化。对比损失用于规范全模态视频 (OMV) 和字幕 (OMC) 之间特征距离。对比损失定义如下,其中表示和的点积相似度,和分别表示批量大小和可学习参数。
Omni-Modality Video-Caption Matching Loss (OM-VCM)
该损失鼓励模型推断一对 OMV 和 OMC 是否匹配。具体来说,字幕标记输入到文本编码器中,此时通过激活交叉注意力层来关注条件特征,该特征通过在序列维度上拼接未池化的特征、和获得。在拼接之前,三个独立的线性层用于调整它们的隐藏层大小为相同值。文本编码器的输出特征输入到一个两层 MLP 中以做出二元预测。为了创建有意义的负样本对,我们采用了难负样本挖掘策略。损失函数定义如下,其中OMV 和 OMC 匹配,反之。
Omni-Modality Video Caption Generation Loss (OM-VCG)
该损失使用条件因果掩码语言建模来增强模型生成全模态字幕的能力。具体来说,OMC 中 60% 的标记在文本编码器输入端被掩盖。交叉注意力层被激活,作为条件特征与 OM-VCM 中相同。文本编码器中的自注意力层利用单向因果注意力掩码以防止信息泄露,掩盖的标记在文本编码器的输出端使用 BERT 的原生预测层进行重建。损失定义如下,其中和分别表示被掩盖的标记和之前的标记:
Overall loss
Modality Grouping
虽然 VAST 在预训练期间建立了全模态视频-字幕的对应关系,但在下游基准测试和实际应用中,必须解决模态缺失的潜在问题,因为预训练和应用过程中模态之间的不一致可能会产生负面影响。受到 VALOR 提出的模态分组策略的启发,作者分组不同模态统一建模了 V-T、A-T、VA-T、VS-T 和 VAS-T(刚刚介绍的为)的关系。具体来说,视觉和音频字幕分别用于 V-T 和 A-T 建模,而全模态字幕用于 VA-T、VS-T 和 VAS-T 建模。最终损失公式如下:
Experiments
Implementation Details
训练框架与硬件
- VAST 模型使用 PyTorch 框架在 64 张 Tesla V100 显卡上进行训练。
- 视觉、音频和文本编码器分别初始化为 EVAClip-ViT-G 、BEATs 和 BERT-B,模型总参数量为 13B。
训练数据与语料库
- 训练语料库是多个数据集的组合:
- VAST-27M
- VALOR-1M
- WavCaps
- CC14M
- 110M 随机采样的 LAION-400M 配对数据
- 训练步数为 200k:
- 每一步训练时,随机从上述语料库中选择一个进行训练。
- CC14M 和 LAION 的原始描述被训练好的视觉描述生成器替换。
训练参数
- 初始学习率:。
- 学习率衰减策略:线性衰减。
- 批量大小:1024。
- 在每个预训练步骤中,视频片段中随机采样 1 帧,音频片段中随机采样 2 个 10 秒长的音频片段。
消融实验
- 消融实验中使用了 CLIP-ViT-B作为视觉编码器,并冻结其参数。
下游任务适配
- 检索任务:所有候选项使用 VCC 进行初步排序,然后使用 VCM 对前 50 名候选项重新排序。
- 字幕生成任务:使用 Beam Search,束宽为 3。
- 问答任务:设置为开放式生成任务,问题作为前缀,答案无约束地生成。
评估指标
- 检索任务:Recall@1
- 字幕生成任务:CIDEr
- 问答任务:Accuracy (Acc)
详细的预训练数据集混合比例和下游任务微调配置在附录中。
Comparison to State-of-the-Art Models

Comparison to Open-Source Cross-Modality Training Corpus


Ablation Study

Conclusion, Broader Impact and Limitation
Conclusion
- VAST-27M 语料库:
- 介绍了 VAST-27M,一个大规模的全模态视频描述数据集,旨在推动多模态预训练的研究。
- 数据集中每个视频片段都配有自动生成的视觉和音频描述,以及通过预训练的大型语言模型(LLM)整合视觉、音频和字幕生成的全模态描述。
- VAST 模型:
- 训练了一个统一的基础模型 VAST,能够理解并连接视频中的各种模态信息(视觉、音频、字幕)与描述。
- VAST 展现了其在视觉-文本、音频-文本、多模态视频-文本任务(如检索、字幕生成、问答等)中的有效性,实现了SOTA。
Broader Impact
- 多模态理解的影响:
- 多模态视频内容的理解在多个领域(如娱乐、教育、安全、交通、医疗等)具有重要影响。
- VAST-27M 和 VAST 这样的全模态基础模型的发展,有助于推动这些领域的进展和实际应用。
- 潜在应用:
- 全模态模型能在多种实际应用中发挥重要作用,如自动视频内容生成、视频检索、多模态翻译等,推动娱乐和教育领域的变革。
- 在医疗和安全领域,这类模型有助于解读复杂的多模态数据,有助于更快更准确的决策。
Limitation
- 语料库的多样性:
- 需要更多样化和更大规模的全模态数据集来进一步提升模型的泛化能力,VAST-27M 语料库虽然规模较大,但仍不足以覆盖所有多样化的模态场景。
- LLM 的集成:
- 虽然 VAST 已经能够支持多种下游任务,但为了进一步提升其泛化能力,集成 大型语言模型(LLM) 是必要的。然而,LLM 的集成可能并未完全消除模型在多模态任务中的局限性。
- 数据偏差:
- VAST-27M 的数据采集和视频、音频描述的生成过程中依赖了 LLM 和一些开源的跨模态语料库,这些语料库和模型可能存在数据偏差,导致 VAST-27M 数据集和 VAST 模型可能受到这些偏差的影响。