和另一个模态中的查询
用于定义“良好匹配”的相似性度量的选择由应用领域决定。例如,在使用自然语言查询的文本-视频检索任务中,目标是根据视频内容被书面自由文本查询描述的程度对视频库进行排序,而在图像-音频检索中,目标通常是从库中获取与图像查询具有相同语义类别的音频样本。
在这项工作中,特别关注使用自然语言查询的跨模态检索任务,原因有二:
长期以来,人们观察到高维嵌入空间容易出现hubness现象,即少数样本在所有嵌入的
为说明这一问题,考虑使用自然语言查询的视频检索问题。作者绘制了在MSR-VTT检索基准上,每个库视频被检索次数的分布,涉及一系列文本-视频检索方法,包括CE、TT-CE+、MMT和CLIP2Video,还有TT-CE+方法在各个数据集下的检索分布,包括ActivityNet、DiDeMo、LSMDC和Vatex等。
在每种情况下,都看到了hubness现象的明显证据——少数视频被极其频繁地检索,而其他视频则完全没有被检索到。这种现象不限于特定的检索模型,表明该问题不能通过使用多种视频模态、注意力机制和大规模预训练的各种组合来轻易解决。
在过去的文献中,作者特别感兴趣的是那些可以应用于实际跨模态检索设置的方法,即这些方法的复杂度至多与库的大小呈线性关系(而不是寻求在固定嵌入空间内解决hubness问题的二次复杂度方法)。
为明确现有方法之间的关系,作者将它们放入查询库归一化框架,该框架包括两个组件:查询库构建和相似度归一化,具体描述如下:
查询库构建:为了减缓跨模态嵌入空间中的枢纽现象,希望以减少hubness影响的方式改变嵌入之间的相似度。为调整相似度,首先从查询模态
相似度归一化:为了归一化相似度以考虑枢纽问题,我们假设可以访问一个查询
在实践中,用于相似度归一化的探测矩阵可以预先计算并在所有查询中重复用(提高计算效率,但代价是更高的内存)。
查询库归一化框架在查询库构建和相似度归一化方面提供了多种可行选择。为说明这一点,我们首先将NLP文献中提出的三种hubness mitigation技术纳入该框架,然后介绍我们提出的替代方法:the Dynamic Inverted Softmax。
Globally-Corrected (GC) retrieval:最初用于双语翻译和零样本学习任务,这种方法可以通过从完整的测试查询集合
其中
Cross-Domain Similarity Local Scaling (CSLS):为双语词汇翻译任务引入,CSLS构建一个包含所有可能查询的初始查询库(对应于源词汇样本),然后使用查询库的不同子集来归一化每个库样本。令
Inverted Softmax (IS):针对双语词汇翻译,这种方法从源词汇(对应于所有可能感兴趣的查询)中构建查询库。对于实际应用,作者建议均匀随机地子采样一个可行数量的查询。相似度归一化通过以下方式实现:
其中
Dynamic Inverted Softmax (DIS):在上述方法的实验中,我们观察到一个重要的实际问题:如果查询库不能有效覆盖包含库的空间,性能会严重下降。为了应对这一问题,除了上一节算法流程图中描述的查询库探测矩阵外,我们还预先计算一个库激活集:
这里,符号
由于
在多个标准基准数据集上进行了实验,包括:
评估指标主要包括:
Limitations
使用QB-NORM的所有归一化技术都会产生额外的预计算成本。我们提出的归一化技术DIS,相较于其他归一化方法增加了一些额外的计算成本。而且不利的查询库选择和显著的领域差距会降低查询库归一化的效益。
Societal impact
跨模态检索是一种强大的工具,既有积极的应用,也有潜在的风险。跨模态搜索可以为研究人员、音乐家、艺术家和消费者提供高效的内容发现。然而,这一能力也可能被用作政治压迫的工具:例如,它可能使社交媒体内容的高效搜索成为可能,以发现政治异议的迹象。