其中每个是与词嵌入具有相同维度的向量,例如,CLIP (ViT-Large) 中为 768。是指代上下文标记数量的超参数,即。我们对进行了实验。指的是数据集的类别标记,在我们的情况下为和测试数据集参数
EXPERIMENTS






CONCLUSION
- 检验了CLIP在不同数据分布下deepfake detection的稳健性
- 使用了来自ProGAN的200k张图片训练以实验4种不同的迁移策略,并且在有21个不同的图像生成模型的综合测试集中进行了评估
- 实验表明将CLIP的视觉和文本组件结合的迁移学习策略超越其他如Linear Probing等仅仅利用视觉模块的方法
- 强调了Prompt Tuning相对于当前baselines和SOTA方法的优越性,训练参数少的同时效果较好
- 对图像进行了JPEG compression和Gaussian blurring这两种后处理以检验稳健性