多模态融合 - 标签内容 | AI千集 — AI角色定制平台

[论文翻译]Semantic 2 Graph: 基于图的多模态特征融合视频动作分割方法

视频动作分割已广泛应用于多个领域。多数先前研究采用基于视频的视觉模型实现这一目标。但这些方法通常依赖大感受野、LSTM或Transformer方法来捕捉视频中的长时依赖关系，导致计算资源需求显著。为应对这一挑战，基于图的模型被提出。然而，现有基于图的模型精度较低。为此，本研究提出名为Semantic 2 Graph的图结构方法，通过建模视频中的长时依赖关系来降低计算成本并提升精度。我们在帧级别构建视频图结构：使用时序边建模视频中的时序关系与动作顺序；同时设计带权值的正负语义边，以捕捉视频动作的长短期语义关联。节点属性包含从视频内容、图结构和标签文本中提取的多模态特征，涵盖视觉、结构和语义线索。为有效融合多模态信息，我们采用图神经网络(GNN)模型进行节点动作标签分类的多模态特征融合。实验结果表明，Semantic 2 Graph在GTEA和50Salads等基准数据集上性能优于现有最优方法。多项消融实验进一步验证了语义特征对模型性能的提升作用。值得注意的是，Semantic 2 Graph通过引入语义边实现了长时依赖关系的低成本捕捉，有效解决了基于视频的视觉模型面临的算力约束难题。

由 shadow发布于 2025-05-21 11:04:07 计算机视觉多模态融合图神经网络阅读次数 1174