识别模型 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]面向情感识别的通用视听学习

当前大多数视听情感识别模型缺乏实际应用部署所需的灵活性。我们设想了一种多模态系统，即使在仅有一种模态可用时仍能工作，并能灵活切换用于预测情感属性或识别分类情感。由于准确解释和整合多样化数据源存在固有挑战，实现这种多模态情感识别系统的灵活性十分困难。在允许回归或分类任务直接切换的同时，鲁棒地处理缺失或部分信息也是一项挑战。本研究提出了一种通用视听学习框架(VAVL)，可处理单模态和多模态系统，适用于情感回归或情感分类任务。我们实现的视听框架即使在训练集中部分数据缺失配对模态时(即仅含音频或仅含视频)仍可训练。通过视听共享层、共享层残差连接和单模态重建任务，我们实现了有效的表征学习。实验结果表明，我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强基线模型。值得注意的是，VAVL在MSP-IMPROV语料库的情感属性预测任务中取得了新的最先进性能。

由 shadow发布于 2025-06-13 22:33:13 大模型识别模型私有大模型阅读次数 1223