• [论文翻译]面向情感识别的通用视听学习

    当前大多数视听情感识别模型缺乏实际应用部署所需的灵活性。我们设想了一种多模态系统,即使在仅有一种模态可用时仍能工作,并能灵活切换用于预测情感属性或识别分类情感。由于准确解释和整合多样化数据源存在固有挑战,实现这种多模态情感识别系统的灵活性十分困难。在允许回归或分类任务直接切换的同时,鲁棒地处理缺失或部分信息也是一项挑战。本研究提出了一种通用视听学习框架(VAVL),可处理单模态和多模态系统,适用于情感回归或情感分类任务。我们实现的视听框架即使在训练集中部分数据缺失配对模态时(即仅含音频或仅含视频)仍可训练。通过视听共享层、共享层残差连接和单模态重建任务,我们实现了有效的表征学习。实验结果表明,我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强基线模型。值得注意的是,VAVL在MSP-IMPROV语料库的情感属性预测任务中取得了新的最先进性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理