帧的视频,假设图像编码器将每一帧编码为个tokens。将所有视觉标记输入到 LLM,如下所示:
其中是视觉投影层。
然后,我们将所有视觉标记连接起来,形成一个联合的时空序列,其中是嵌入维度的数量。在经过词嵌入层后,文本标记直接与所有时空标记连接,以组织输入到 LLM,如下所示:
在将输入标记输入到 LLM 之前,存在几种替代策略。
- 添加分隔符标记在帧内标记或视觉-文本标记之间,以划分模态或帧之间的边界。
- 专门为视觉标记添加时空位置嵌入,以促进更好的时空关系理解。
但实验表明,简单性往往能产生最佳效果。添加许多分隔标记会引入额外的开销,而不会显著提高性能。此外,LLMs 带有旋转位置嵌入,它已经有效地区分了所有时空标记和文本标记的位置。
Training with Dynamic Masking
为了解决输入帧长度过长的问题,作者提出在训练过程中对视觉标记进行掩码。
保持中的文本标记不变,同时对视频标记应用掩码。这个掩码随机掩盖所有视频标记的比例,而不考虑其在不同帧中的位置。与之前的工作不同,作者采用了一种动态掩码策略,其中掩码率从正态分布中随机采样,如下所示:
其中表示正态分布的方差。此策略确保时空序列的长度连续变化,同时保持平均掩码率在50%以上。因此,它在推理过程中最大限度地降低训练成本并显著增强鲁棒性。
此外,基于动态掩码,作者制定了掩码视频建模(MVM)训练目标,以鼓励LLM掌握时空依赖关系。具体来说,除了掩码序列之外,作者对未掩码序列进行额外的无梯度前向传递,作为参考输出。然后,根据其位置从和对应的标记中选择未掩码标记,计算所选对之间的均方误差(MSE),如下所示:
其中表示掩码标记索引的集合,来自,代表我们的MVM目标。最后,我们的总体损失包括和 LLM 解码器损失,即。
通过整合这两个损失组件,我们可以鼓励LLM有效地响应视频内容派生的问题,同时提高其建模时空依赖关系的能力。
Global-Local Input
尽管压缩了输入帧,但是对于极长视频需要大量帧的情况仍然无法处理。
因此,作者又设计了一个额外的模块来解决这个问题。
具体来说,给定一个帧数较多的长视频,仍然从对每帧单独编码以获取开始。随后,通过对逐帧标记进行平均池化来推导全局视频表示:
接下来,我们从总共帧中平均采样出帧。这些帧中的所有标记被连接以生成一个联合时空序列,作为局部视频表示。最后,LLM的全局-局部输入,表示为,构建如下:
其中是一个简单的MLP投影器,使用零初始化以进行上采样投影。
通过这种全局-局部输入设计,LLM内低帧率时空序列可以逐渐整合来自高帧率分支的信息。该方法允许模型在有限的上下文中受益于LLM建模时空序列的能力,同时也考虑到长视频的全局信息。
Experiments





Conclusion
- 提出了ST-LLM,框架简单而强大,在很多benchmark实现SOTA。
- 直接利用LLM对视频标记进行建模以实现有效的视频理解,此外引入了动态屏蔽策略和全局局部输入模块来增强该框架的鲁棒性。