• [论文翻译]基于3D可变形注意力(3D Deformable Attention)的跨模态学习在动作识别中的应用

    基于视觉的动作识别面临一个重要挑战:如何将两种或多种异构模态的时空特征嵌入到单一特征中。本研究提出了一种新型3D可变形Transformer (3D deformable transformer) ,通过自适应时空感受野和跨模态学习方案进行动作识别。该架构包含三个注意力模块:3D可变形注意力、局部关节步幅注意力和时间步幅注意力。两个跨模态token被输入到\$3D\$可变形注意力模块,生成具有反射时空相关性的交叉注意力token。局部关节步幅注意力在空间维度上融合注意力与姿态token,时间步幅注意力则通过减少注意力模块的输入token数量来支持时序表达学习,无需同时使用所有token。该可变形Transformer经过L次迭代后,将最终的跨模态token组合用于分类。在NTU60、NTU120、FineGYM和PennAction数据集上的测试表明,即使没有预训练过程,所提出的3D可变形Transformer性能也优于或持平预训练的先进方法。此外,通过空间关节注意力和时间步幅注意力可视化动作识别过程中的关键关节及其相关性,展现了实现可解释性动作识别的潜力。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理