• [论文翻译]MTCAE-DFER: 基于多任务级联自编码器的动态面部表情识别

    摘要—本文拓展了基于自动编码器(Auto Encoder)的多任务学习(MTL)框架的级联网络分支,即用于动态面部表情识别的多任务级联自动编码器(MTCAE-DFER)。MTCAE-DFER构建了一个即插即用的级联解码器模块,该模块基于视觉Transformer(ViT)架构,采用Transformer的解码器概念重构了多头注意力模块。前一任务的解码器输出作为查询向量(Q),代表局部动态特征;而视频掩码自动编码器(VideoMAE)共享编码器的输出同时作为键向量(K)和值向量(V),代表全局动态特征。这种设计促进了相关任务间全局与局部动态特征的交互。此外,本方案旨在缓解复杂大模型的过拟合问题。我们采用基于自动编码器的多任务级联学习方法,探究动态人脸检测和动态人脸关键点对动态表情识别的影响,从而提升模型泛化能力。通过在多个公开动态表情识别数据集上进行大量消融实验并与最先进(SOTA)方法对比,验证了MTCAE-DFER模型的鲁棒性及相关任务间全局-局部动态特征交互的有效性。
  • [论文翻译]HOISDF: 基于全局符号距离场约束的3D手-物体姿态估计

    人手具有高度灵活性和多变性,能够灵巧操控物体。由于频繁遮挡,从单目摄像头联合估计手部及其操控物体的三维姿态极具挑战性。因此,现有方法通常依赖中间三维形状表征来提升性能。这些表征多为显式形式(如三维点云或网格),仅能提供手部姿态估计局部邻域的信息。为此,我们提出HOISDF——一种基于符号距离场(SDF)引导的手-物姿态估计网络,通过联合利用手部和物体的SDF,在整个重建空间内提供全局隐式表征。具体而言,SDF发挥三重作用:为视觉编码器提供隐式形状信息、辅助编码手-物交互关系、通过基于SDF的采样和特征增强来引导姿态回归。实验表明,HOISDF在手-物姿态估计基准测试(DexYCB和HO3Dv2)中达到最先进水平。代码详见https://github.com/amathislab/HOISDF。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理