• [论文翻译]面向情感识别的通用视听学习

    当前大多数视听情感识别模型缺乏实际应用部署所需的灵活性。我们设想了一种多模态系统,即使在仅有一种模态可用时仍能工作,并能灵活切换用于预测情感属性或识别分类情感。由于准确解释和整合多样化数据源存在固有挑战,实现这种多模态情感识别系统的灵活性十分困难。在允许回归或分类任务直接切换的同时,鲁棒地处理缺失或部分信息也是一项挑战。本研究提出了一种通用视听学习框架(VAVL),可处理单模态和多模态系统,适用于情感回归或情感分类任务。我们实现的视听框架即使在训练集中部分数据缺失配对模态时(即仅含音频或仅含视频)仍可训练。通过视听共享层、共享层残差连接和单模态重建任务,我们实现了有效的表征学习。实验结果表明,我们的架构在CREMA-D、MSP-IMPROV和CMU-MOSEI语料库上显著优于强基线模型。值得注意的是,VAVL在MSP-IMPROV语料库的情感属性预测任务中取得了新的最先进性能。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一款聚焦健康管理的智能平台
在这里您可以获得本平台自训练的
健康管理大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能健康快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理
连接科研与大众健康的桥梁
让科学健康管理融入日常
登陆小程序
AI数字人随身守护
健康管理更高效
生活品质悄然升级

千集助理