• [论文翻译]HERMES: 基于情节与语义的时序连贯长文本理解

    现有研究通常将长视频视为加长版的短视频,导致存在三大局限:难以捕捉长程依赖关系、冗余信息处理效率低下、无法提取高层语义概念。为解决这些问题,我们提出了一种更贴近人类认知的新方法。本文介绍HERMES:基于情节记忆与语义知识的时序连贯长视频理解模型,该模型通过模拟情景记忆累积机制来捕捉动作序列,并利用视频中分散的语义知识进行强化。我们的工作有两大核心贡献:首先,开发了情节压缩器(Episodic COmpressor, ECO)模块,可高效聚合从微观到半宏观层面的关键表征,攻克长程依赖难题;其次,提出了语义检索器(Semantics reTRiever, SeTR),通过关注全局上下文为聚合表征注入语义信息,在保留相关宏观信息的同时显著降低特征维度,从而解决冗余信息和高层概念缺失问题。大量实验表明,HERMES在零样本和全监督设置下,于多个长视频理解基准测试中均达到最先进性能。代码将开源发布。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理