多层交叉注意力在多模态情境学习中的最优性得以证明

近年来,我们对现代基于注意力的神经网络中上下文学习机制的理解取得了迅速进展。然而,现有成果仅关注单模态数据;相比之下,对于多模态数据上下文学习的理论基础仍了解不多。我们引入了一个数学上可处理的框架来研究多模态学习,并探讨当类似于Transformer的架构能在上下文中恢复贝叶斯最优性能时的情况。为了建模多模态问题,我们假设观测数据源于一个潜在因子模型。我们的第一个结果是对可表达性的否定观点:我们证明了单层、线性自注意力无法在任务分布上均匀地恢复贝叶斯最优预测器。为了解决这一局限性,我们引入了一种新颖的、线性化的交叉注意力机制,我们研究的是当交叉注意力层的数量和上下文长度都很大时的状态。我们表明,当使用梯度流优化时,这种交叉注意力机制在数学上是贝叶斯最优的。我们的结果强调了深度对于上下文学习的益处,并确立了交叉注意力对于多模态分布的可证明效用。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行