• [论文翻译]MTCAE-DFER: 基于多任务级联自编码器的动态面部表情识别

    摘要—本文拓展了基于自动编码器 (Auto Encoder) 的多任务学习 (MTL) 动态面部表情识别框架的级联网络分支,即多任务级联自动编码器动态面部表情识别 (MTCAE-DFER) 。MTCAE-DFER构建了即插即用的级联解码器模块,该模块基于Vision Transformer (ViT) 架构,采用Transformer的解码器概念重构多头注意力模块。
  • [论文翻译]MTCAE-DFER: 基于多任务级联自编码器的动态面部表情识别

    摘要—本文拓展了基于自动编码器(Auto Encoder)的多任务学习(MTL)框架的级联网络分支,即用于动态面部表情识别的多任务级联自动编码器(MTCAE-DFER)。MTCAE-DFER构建了一个即插即用的级联解码器模块,该模块基于视觉Transformer(ViT)架构,采用Transformer的解码器概念重构了多头注意力模块。前一任务的解码器输出作为查询向量(Q),代表局部动态特征;而视频掩码自动编码器(VideoMAE)共享编码器的输出同时作为键向量(K)和值向量(V),代表全局动态特征。这种设计促进了相关任务间全局与局部动态特征的交互。此外,本方案旨在缓解复杂大模型的过拟合问题。我们采用基于自动编码器的多任务级联学习方法,探究动态人脸检测和动态人脸关键点对动态表情识别的影响,从而提升模型泛化能力。通过在多个公开动态表情识别数据集上进行大量消融实验并与最先进(SOTA)方法对比,验证了MTCAE-DFER模型的鲁棒性及相关任务间全局-局部动态特征交互的有效性。
  • [博客翻译]结束OpenH264的篇章

    关于OpenH264的告别 日期:2025年3月22日 大家可能已经注意到,我曾提到计划从Freedesktop SDK中移除OpenH264。在这篇文章中,我会尝试追溯它的历史、时间线以及最终决策的原因。 简单介绍 如果你不熟悉Freedesktop SDK项目,它起源于由Alexander Larsson创建的第一个1.6版本Flatpak运行时图像。该项目最初的目的是为Flatpak提供一个独立于主机的操作环境(即“运行时”)。随着时间推移,该项目在CodeThink及其他贡献者的帮助下逐步发展为一个...
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理