[论文翻译]TDSM: 零样本动作识别中骨架-文本匹配的三重扩散方法
我们首先提出了一种基于扩散 (diffusion) 的零样本 (zero-shot) 骨骼动作识别方法。在零样本骨骼动作识别中,将骨骼特征与动作标签的文本特征对齐对于准确预测未见动作至关重要。先前的方法侧重于骨骼与文本潜在空间之间的直接对齐,但这些空间之间的模态差异阻碍了鲁棒的泛化学习。受文本到图像 (text-to-image) 扩散模型卓越性能的启发,我们主要利用其在反向扩散 (reverse diffusion) 训练过程中对不同模态的对齐能力,而非依赖其生成能力。基于此,我们的框架设计为一种用于骨骼-文本匹配的三元组扩散方法 (Triplet Diffusion for Skeleton-Text Matching, TDSM),通过反向扩散将骨骼特征与文本提示 (text prompts) 对齐,并将提示嵌入统一的骨骼-文本潜在空间以实现鲁棒匹配。为了增强判别力,我们提出了一种新颖的三元组扩散 (TD) 损失函数,促使TDSM修正正确的骨骼-文本匹配,同时推开不正确的匹配。我们的TDSM以2.36%至13.05%的显著优势超越了当前最先进方法,通过有效的骨骼-文本匹配在零样本设置中展现出卓越的准确性和可扩展性。