• [论文翻译]MAST:基于三模态分层注意力的多模态抽象摘要生成

    本文提出MAST,一种新型多模态抽象文本摘要模型,该模型综合利用视频中文本、音频和视觉三种模态的信息。此前多模态抽象文本摘要研究仅利用文本和视觉模态信息。我们探究了从音频模态提取信息的价值与挑战,并提出基于层级注意力机制的序列到序列三模态模型,通过增强模型对文本模态的关注度来解决这些挑战。在How2多模态语言理解数据集上,MAST以内容F1值2.51分和Rouge-L值1.00分的优势超越当前最佳(视频-文本)模型。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理