[论文翻译]MTCAE-DFER: 基于多任务级联自编码器的动态面部表情识别 摘要—本文拓展了基于自动编码器 (Auto Encoder) 的多任务学习 (MTL) 动态面部表情识别框架的级联网络分支,即多任务级联自动编码器动态面部表情识别 (MTCAE-DFER) 。MTCAE-DFER构建了即插即用的级联解码器模块,该模块基于Vision Transformer (ViT) 架构,采用Transformer的解码器概念重构多头注意力模块。 由 shadow发布于 2025-06-02 14:50:01 编码器大模型私有大模型 阅读次数 282
[论文翻译]MTCAE-DFER: 基于多任务级联自编码器的动态面部表情识别 摘要—本文拓展了基于自动编码器(Auto Encoder)的多任务学习(MTL)框架的级联网络分支,即用于动态面部表情识别的多任务级联自动编码器(MTCAE-DFER)。MTCAE-DFER构建了一个即插即用的级联解码器模块,该模块基于视觉Transformer(ViT)架构,采用Transformer的解码器概念重构了多头注意力模块。前一任务的解码器输出作为查询向量(Q),代表局部动态特征;而视频掩码自动编码器(VideoMAE)共享编码器的输出同时作为键向量(K)和值向量(V),代表全局动态特征。这种设计促进了相关任务间全局与局部动态特征的交互。此外,本方案旨在缓解复杂大模型的过拟合问题。我们采用基于自动编码器的多任务级联学习方法,探究动态人脸检测和动态人脸关键点对动态表情识别的影响,从而提升模型泛化能力。通过在多个公开动态表情识别数据集上进行大量消融实验并与最先进(SOTA)方法对比,验证了MTCAE-DFER模型的鲁棒性及相关任务间全局-局部动态特征交互的有效性。 由 shadow发布于 2025-06-01 17:09:16 编码器大模型视觉编码器 阅读次数 326
[博客翻译]结束OpenH264的篇章 关于OpenH264的告别 日期:2025年3月22日 大家可能已经注意到,我曾提到计划从Freedesktop SDK中移除OpenH264。在这篇文章中,我会尝试追溯它的历史、时间线以及最终决策的原因。 简单介绍 如果你不熟悉Freedesktop SDK项目,它起源于由Alexander Larsson创建的第一个1.6版本Flatpak运行时图像。该项目最初的目的是为Flatpak提供一个独立于主机的操作环境(即“运行时”)。随着时间推移,该项目在CodeThink及其他贡献者的帮助下逐步发展为一个... 由 openoker发布于 2025-03-25 22:40:00 编码器扩展专利运行时解码器 阅读次数 352