[论文翻译]面向How2视频的多模态摘要生成

本文研究了开放领域视频的抽象摘要生成任务。与传统文本新闻摘要不同，该任务的目标并非简单"压缩"文本信息，而是基于从多源模态(本研究中指视频和音频转录文本)收集融合的信息，生成流畅的文本摘要。我们展示了具有分层注意力机制的多源序列到序列模型如何将不同模态信息整合为连贯输出，比较了基于不同模态训练的多种模型，并在How2教学视频语料库上进行了初步实验。针对抽象摘要任务，我们还提出了一种新的评估指标Content F1，该指标侧重衡量摘要的语义充分性而非流畅度(ROUGE和BLEU等指标已涵盖流畅度评估)。