文本模型 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]MAST：基于三模态分层注意力的多模态抽象摘要生成

本文提出MAST，一种新型多模态抽象文本摘要模型，该模型综合利用视频中文本、音频和视觉三种模态的信息。此前多模态抽象文本摘要研究仅利用文本和视觉模态信息。我们探究了从音频模态提取信息的价值与挑战，并提出基于层级注意力机制的序列到序列三模态模型，通过增强模型对文本模态的关注度来解决这些挑战。在How2多模态语言理解数据集上，MAST以内容F1值2.51分和Rouge-L值1.00分的优势超越当前最佳（视频-文本）模型。

由 shadow发布于 2025-06-06 16:27:55 文本模型自然语言处理数据集阅读次数 1111