• [论文翻译]用紧凑型Transformer (Compact Transformers) 逃离大数据范式

    随着Transformer成为语言处理的标准模型,并在计算机视觉领域取得进展,其参数量与训练数据规模也相应增长。这使许多人认为Transformer不适用于小规模数据场景,由此引发诸多担忧:某些科学领域的数据可获得性受限,以及资源有限的研究者被排除在该领域研究之外。本文通过引入紧凑型Transformer (Compact Transformers) 提出小规模学习方法。
  • [论文翻译]数据到文本生成中的自记忆自训练

    本文提出了一种新颖的训练模型——数据到文本生成(DTG)中的自记忆自训练(STSM),该模型能够在子集上进行自我训练,包括将训练模型直接推断的输出和/或新数据作为自记忆。自记忆的质量通过两个模型(数据到文本(D2T)和文本到数据(T2D))以及两个预定义条件进行验证:(1) D2T模型输出中包含所有源值,(2) T2D模型输出能够转换回源数据。我们采用贪心算法生成更短的D2T输出(前提是它们包含所有源值),随后使用T2D模型通过验证文本能否转换回数据来确认这些输出能捕捉输入关系。仅使用数据集的30%,我们就能训练出与全量训练配置下性能相当的D2T模型。我们在E2E NLG和DART两个数据集上进行了实验。STSM使D2T模型能够从子集记忆中获得泛化能力,同时减少训练数据量。最终,我们期待本文能为持续学习解决方案做出贡献,使其能够适应新的训练数据,并将其作为DTG任务中自记忆的一种形式。整理后的数据集已公开发布于:https://github.com/hoangthanhta/STSM。
  • [论文翻译]多模态开放域对话

    开放域对话智能体的最新研究表明,通过大规模扩展预训练数据和模型规模,可以显著提升模型的互动性和拟人化指标 (Adiwardana et al., 2020; Roller et al., 2020) 。然而,若要构建具备类人能力的智能体,我们必须突破纯文本处理的局限。其中尤为关键的是视觉感知与图像交流能力。为实现多模态人机对话的目标,我们探索将顶尖开放域对话模型与前沿视觉模型相结合的技术路径。通过研究不同图像融合方案、领域自适应预训练及微调策略,我们证明最优模型不仅在多模态对话任务上超越现有强基线,同时在纯文本对话中保持与前代文本模型BlenderBot (Roller et al., 2020) 相当的性能。我们还在最终模型中集成安全组件,验证了这些设计不会损害模型在互动性指标上的表现。
  • [论文翻译]Whisper-Flamingo:将视觉特征融入Whisper以实现视听语音识别与翻译

    视听语音识别 (AVSR) 利用唇部视频提升噪声环境下的识别性能。由于视频数据比音频更难获取,AVSR 模型的视频训练数据通常仅限于数千小时。相比之下,Whisper 等语音模型使用数十万小时数据进行训练,因此能学习到更优质的语音到文本解码器。这种巨大的训练数据差异促使我们改造 Whisper 以处理视频输入。受 Flamingo 向语言模型注入视觉特征的启发,我们提出 Whisper-Flamingo,通过门控交叉注意力将视觉特征整合到 Whisper 语音识别与翻译模型中。
  • [论文翻译]基于记忆网络的大规模简单问答

    训练大规模问答系统十分复杂,因为训练数据通常只覆盖了潜在问题范围的很小一部分。本文研究了多任务学习和迁移学习在简单问答任务中的影响——在这种设定中,只要能够根据问题检索到正确证据(这在大规模场景下可能很困难),所需的推理过程其实相当简单。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理