[论文翻译]MARLIN: 面向面部视频表征学习的掩码自编码器 我们提出的框架名为MARLIN,是一种面部视频掩码自编码器,通过大量未标注的网络爬取面部视频学习高度鲁棒且通用的面部嵌入。作为一项具有挑战性的辅助任务,MARLIN从密集掩码的面部区域(主要包括眼睛、鼻子、嘴巴、嘴唇和皮肤)重建面部的时空细节,以捕捉局部和全局特征,从而帮助编码通用且可迁移的特征。 由 shadow发布于 2025-05-24 09:01:36 大模型AI知识自编码器 阅读次数 260