[论文翻译]TALKNCE：通过对话感知对比学习改进主动说话人检测

本工作的目标是主动说话人检测 (Active Speaker Detection, ASD)，即判断一系列视频帧中的人物是否正在说话。以往研究主要通过探索网络架构来处理该任务，而对学习有效表征的探索较少。本文提出TalkNCE——一种新颖的说话感知对比损失函数。该损失仅作用于屏幕上人物实际说话的部分片段，通过语音与面部动作的自然对应关系，促使模型学习有效表征。我们的损失函数可与现有ASD模型训练目标联合优化，无需额外监督或训练数据。实验表明，该损失能轻松集成到现有ASD框架中并提升其性能。我们的方法在AVA-ActiveSpeaker和ASW数据集上达到了最先进水平。

由 shadow发布于 2025-05-23 14:08:33 大模型ASD模型模型训练阅读次数 781

[论文翻译]CDLM: 跨文档语言建模

我们提出了一种面向多文档语言建模的新型预训练方法，该方法将两个关键思想融入掩码语言建模的自监督目标中。首先，我们不再孤立地处理单个文档，而是在多个相关文档集合上进行预训练，促使模型学习跨文档关联。其次，我们改进了近期长程Transformer架构，引入动态全局注意力机制，使其能访问整个输入文本来预测被掩码的token。我们发布了CDLM（跨文档语言模型），这是一个适用于多文档场景的新型通用语言模型，可轻松迁移至下游任务。大量实验表明：这两个创新点对CDLM的成功至关重要，它们协同作用，在多项多文本任务上创造了最新技术水平[20]。