[论文翻译]Motion Squeeze: 面向视频理解的神经运动特征学习
摘要。运动在理解视频中起着至关重要的作用,大多数最先进的视频分类神经模型通过单独预置方法提取的光流来整合运动信息。由于逐帧光流计算量巨大,运动信息的整合一直是视频理解的主要计算瓶颈。本研究通过内部轻量级运动特征学习替代外部高成本的光流计算,提出了一种可训练的神经模块——Motion Squeeze,用于高效提取运动特征。该模块可嵌入任何神经网络中间层,通过学习建立帧间对应关系并将其转化为运动特征,直接馈送至下游层以提升预测性能。实验表明,该方法在四个标准行为识别基准数据集上仅增加少量计算成本即可获得显著性能提升,并在Something-Something-V1&V2数据集上达到当前最优水平。