Video Understanding with LLMs

2024/9/14 读论文系列综述视频大模型

论文发布日期:2024-07-24

Abstract

Vid-LLMs的三个主类（按方法分）：

Video Analyzer × LLM
Video Embedder × LLM
(Analyzer + Embedder) × LLM

Vid-LLMs的五个子类（按功能分）：

LLM as Summarizer
LLM as Manager
LLM as Text Decoder
LLM as Regressor
LLM as Hidden Layer

Introduction

A. 视频理解方法的发展历程

传统方法：
- SIFT、SURF、HOG、背景扣除、光流、IDT（光流？）、HMM、SVM、决策树、随机森林、PCA
早期神经网络视频模型：
- Deepvideo，引入深度CNN，打不过手工特征方法，因为失去了运动特征
- Two-stream networks，结合了CNN和光流来捕获运动信息，能与手工打平
- 为了处理长视频，LSTM、TSN、FV编码、双线性编码、VLAD，显著提高了UCF101和HMDB51性能
- 3D卷积出现打开了新局面，I3D->R3D、MFNet、STC出现，显著提高性能，出现K400和something-something数据集评估更具挑战的性能
- 3D卷积分解为2D卷积和1D卷积，S3D、ECO、P3D
- LTC、T3D、Non-local、V4D专注于长时间建模，CSN、SlowFast、X3D倾向于获得高效率
- ViT引入又促进了一系列新的模型诞生，例如TimeSformer、VidTr、ViViT、MViT
自监督视频预训练模型：
- VideoBERT, 基于双向语言模型BERT，相关任务用于自监督video-text数据。特征处理中，VideoBERT利用了层次化的k-means对视频特征进行分词
- 遵循预训练微调范式，出现了许多针对视频理解的预训练模型，分为使用不同的架构（ActBERT, SpatiotemporalMAE, OmniMAE, VideoMAE, MotionMAE）或者不同的训练策略（MaskFeat, VLM,
  ALPRO, All-in-One transformer, MaskViT, CLIP-ViP,Singularity, LF-VILA, EMCL, HiTeA, CHAMPAGNE）
大语言模型 for 视频理解
- Visual-ChatGPT使用LLM调用视觉模型API解决问题
- 指令微调的出现进一步增强了这些模型有效相应请求的能力

B.相关综述（动机）

现有综述的局限性：

专注于特定子任务：一些论文仅研究视频理解领域的特定子任务，而不是全面概述
关注范围更广的方法：一些论文关注的方法超出了视频理解的范畴

尽管现有的调查论文对学术界有重要价值，但它们在基于大型语言模型的一般视频理解任务调查方面留下了空白，这篇论文旨在填补这一空白，通过全面调查使用大型语言模型进行视频理解的任务来弥补现有研究的不足。

C.综述结构

Section II:提供初步认识for video understanding with LLMs，包括不同粒度级别的各种视频理解任务、相关数据集和评估指标，还有LLMs的背景知识
Section III:深挖最近利用LLMs做视频理解的研究的细节，简述方法和影响，分为摘要说的三大类和五小类，还讲解了Vid-LLMs的训练策略
Section IV:提供更多评估Vid-LLMs的流行方法的更多信息，以及一些常用基准指标
Section V:探索Vid-LLMs的跨领域的重要应用
Section VI:总结主要发现并确定未解决的挑战和未来研究的潜在领域

PRELIMINARIES

A.视频理解任务

Abstract Understanding Tasks
- Video Classification & Action Recognition（用class labels或者activities labels分类视频）: Top-K accuracy
- Text-Video Retrieval：Recall at K (R@K), which measures the accuracy of the first K retrieved results
- Video-to-Text Summarization： Metrics of BLEU, METEOR, CIDEr, and ROUGE-L often evaluate this task
- Video Captioning：BLEU, METEOR, CIDEr, and ROUGE-L
- Video QA： Top-1, Top-K accuracy
Temporal Understanding Tasks
- Video Summarization（将长视频压缩为短视频）：F1-score, Spearman, and Kendall usually evaluate this task as metrics
- Video Highlight Detection（旨在识别和提取视频中最重要和有趣的片段）
- Temporal Action/Event Localization（识别视频中动作或事件的精确时间片段）
- Temporal Action Proposal Generation（生成候选片段within视频中可能包含的动作或活动）
- Video Temporal Grounding（定位视频中与给定文本查询相对应的时刻或间隔）：R1@0.5 and R1@0.7
- Moment Retrieval（识别和提取与给定文本或视觉查询对应的精确视频片段）
- Generic Event Boundary Detection（识别视频中发生重大变化或者过渡的帧，根据不同的事件或活动分割视频）
- Generic Event Boundary Captioning & Grounding（识别和描述视频中重要事件之间的过渡点）
- Dense Video Captioning（为整个视频中发生的多个事件和动作生成详细且连续的文本描述）
Spatiotemporal Understanding Tasks
- Object Tracking（对象跟踪，持续识别特定对象的轨迹）
- Re-Identification(ReID)（跨不同视频帧或摄像机识别或匹配对象）
- Video Saliency Detection（识别视频中视觉上最重要且最引人注目的区域）
- Video Object Segmentation（将视频划分为与各个对象相对应的片段，随时间描绘它们的边界）
- Video Instance Segmentation（识别、分隔和跟踪视频中每个唯一对象）
- Video Object Referring Segmentation（涉及基于自然语言描述来分割视频中的特定对象）
- Spatiotemporal Grounding（根据给定的查询识别和定位视频空间和时间维度的特定对象或事件）

B.LLMs的背景

两个特点

Scaling Laws
Emergent Abilities

多模态大模型Multimodal Large Language Models (MLLMs)构成：

multimodal encoders
cross-modality aligners
an LLM core structure

VID-LLMS

A. Taxonomy

Video Analyzer × LLM：视频分析器被定义为一个模块，接收视频输入并输出视频分析（一般以文本形式）。文本中可能包括视频字幕、密集视频字幕（带有时间戳的视频中所有事件的详细描述）、对象跟踪结果（对象的标签、ID和边界框）以及视频中存在的其他模式的转录（ASR语音识别结果或OCR的字幕识别结果）。视频文本可以直接输入到后续的LLM中，插入输入LLM之前预先准备的模板或者转换为临时数据库以供LLM检索
- LLM as Summarizer：LLMs的主要功能是总结分析从分析器获得的结果。总结根据prompts不同而不同，有高度浓缩的摘要文本和标题或回答特定问题的综合摘要等。在这种系统中，信息通常是单向的
- LLM as Manager：LLMs的主要功能是协调整个系统的运作。它可以根据用户需求主动生成命令来调用不同的视频分析器，然后在输出结果之前选择自己进一步处理该分析或者与视频分析器进行多轮交互，相比Summarizer更加灵活
Video Embedder × LLM：Video Embedder主要指视觉编码器，比如ViT或者CLIP，用来生成视频嵌入。还有一些嵌入器对视频中其他模式进行编码，例如音频（CLAP），LLM的分词器不作为Embedder看待。与视频分析器不同，视频嵌入器的表征不能被直接使用，需要适配器将这些表征映射到LLMs的输入的文本语义空间
- LLM as Text Decoder：LLM接收视频嵌入并根据prompts或instructions将其解码为文本输出，一般这些任务不需要细粒度的理解或者精准的时空定位，仅仅主要关注一般的QA或captioning。
- LLM as Regressor：与文本解码器不同，LLM作为自回归器可以预测连续值，例如视频中的时间戳定位和对象轨迹的边界框坐标（功能类似于回归任务中的回归器，尽管根本上执行的是分类？）。
- LLM as Hidden Layer：LLM接收视频嵌入作为输入但不直接输出文本，而是连接到专门设定的特定任务头来执行实际的回归任务，例如视频中的事件定位或对象边界框预测，同时还会保留LLM的文本输出能力。
(Analyzer + Embedder) × LLM：此类Vid-LLMs比较少，它可以同时获取分析器来获取视频的文本分析，并且使用视频嵌入器将视频编码为嵌入。LLM接收两种类型的输入以及其他prompt或instruction，并输出相应。子类可以为Summarizer/Manager/Text Decoder/Regressor/Hidden Layer中的任意一个

B.Training Strategies for Vid-LLMs

Training-free Vid-LLMs：许多Vid-LLM系统建立在极其强大的LLM之上，具有强大的零样本、情景学习和思维链的能力。大多数Video Analyzer × LLM类别的Vid-LLM无需培训，因为已经将所有视频信息解析为了文本。因为LLM可以将几乎所有NLP任务统一为生成任务，因此还可以处理许多其他视频理解任务。代表：SlowFast-LLaVA。
Fine-tuning Vid-LLMs：与Video Analyzer × LLM不同，所有Video Embedder × LLM类别中的Vid-LLM几乎都需要微调。常用微调方法有：LLM Fully Fine-tuning，Connective Adapter Fine-tuning，Insertive Adapter Fine-tuning，and Fine-tuning with Hybrid Adapters（an adapter is a small，trainable module，用于减少参数训练量）
- LLM Fully Fine-tuning：一般优于adapter微调版本，但是计算资源消耗量大。
- Connective Adapter Fine-tuning：Connective Adapter一般指的是适配器，即将视频嵌入映射到文本语义空间的Adapter。在训练空间中，冻结LLM和Embedder，仅仅微调适配器。
- Insertive Adapter Fine-tuning：Insertive Adapter基于LoRA，是插入在LLM本身的小Adapter单元，会影响LLM的行为，但是原本的LLM和Embedder会被冻结。一般存在于Video Embedder × LLM as Regressor and Video Embedder × LLM as Hidden Layer两类中，因为这两类需要改变LLM的行为去预测连续值。
- Fine-tuning with Hybrid Adapters：使用Connective Adapter和Insertive Adapter两种组合来实现模态对齐和LLM固有行为改变。常见方法是在第一阶段仅微调Connective Adapter来实现模态对齐，第二阶段冻结Connective Adapter，改变训练任务（对齐任务到目标任务）和训练数据（对齐数据到目标数据），然后微调Insertive Adapter。还有一些同时更新两种Adapter的单阶段方法。

BENCHMARKS AND EVALUATION

A.Closed-set Evaluation

Closed-set evaluations 的基础是带有预定答案的问题。对于QA任务，问题被设计为多选题，然后评估正确率。对于captioning或者summarization任务，the ground truth是被提前定义的。The CIDEr, METEOR,ROUGE and SPICE metrics are computed by comparing the predicted sentences with the ground-truth sentences。

B.Open-set Evaluation

与Closed-set Evaluation不同，Open-set Evaluation不依赖于预定义的选项。它通过将GPT-3.5/4等模型的预测与自己的答案比较，为预测分配分数。

C.Others

需要细粒度的事件和空间的视频理解任务，比如 dense captioning, video temporal grounding, spatiotemporal grounding, object tracking, video saliency detection,等需要事件或者时空 annotations 来评估性能，一般用 IoU， Recall@K 和 mAP。有时候用人工评估，不过太费时费力费钱。

APPLICATIONS

A.Media and Entertainment

Online Video Platforms and Multimedia Information Retrieval
Video Summarization and Editing

B.Interactive and User-Centric Technologies

Virtual Education, Accessibility, and Sign Language
Interactive Gaming and Virtual Environments
State-Aware Human-Computer Interaction and Robot Planning

C.Healthcare and Security Applications

Healthcare Innovations（医疗保健创新）
Security, Surveillance, and Cybersecurity（安全、监控和网络安全）
Advancements in Autonomous Vehicles（自动驾驶）

FUTURE DIRECTIONS AND CONCLUSION

A.Limitations and Future Work

Fine-grained Video Understanding
Long-form Video Understanding
Multimodal Video Understanding
Human Interaction in Video Understanding
Hallucination（幻觉） in Multimodal LLMs

B.Conclusion

主要讲述了视频理解的发展历程，不同的视频理解任务，Vid-LLMs的分类及其主要训练方法，视频任务的评估，Vid-LLMs促进的应用及其不足与未来发展。作者最后认为在以下几个方向可以继续推动进度：

寻找更有效的训练策略
提高Vid-LLMs的规模
发展更创新的架构
扩大数据集规模和增加benchmarks

附录

一.Vid-LLMs分类表格

二.目前视频大模型的对比表格

LOADING