[论文翻译]多模态开放域对话
开放域对话智能体的最新研究表明,通过大规模扩展预训练数据和模型规模,可以显著提升模型的互动性和拟人化指标 (Adiwardana et al., 2020; Roller et al., 2020) 。然而,若要构建具备类人能力的智能体,我们必须突破纯文本处理的局限。其中尤为关键的是视觉感知与图像交流能力。为实现多模态人机对话的目标,我们探索将顶尖开放域对话模型与前沿视觉模型相结合的技术路径。通过研究不同图像融合方案、领域自适应预训练及微调策略,我们证明最优模型不仅在多模态对话任务上超越现有强基线,同时在纯文本对话中保持与前代文本模型BlenderBot (Roller et al., 2020) 相当的性能。我们还在最终模型中集成安全组件,验证了这些设计不会损害模型在互动性指标上的表现。