• [论文翻译]HERMES: 基于情节与语义的时序连贯长文本理解

    现有研究通常将长视频视为加长版的短视频,导致存在三大局限:难以捕捉长程依赖关系、冗余信息处理效率低下、无法提取高层语义概念。为解决这些问题,我们提出了一种更贴近人类认知的新方法。本文介绍HERMES:基于情节记忆与语义知识的时序连贯长视频理解模型,该模型通过模拟情景记忆累积机制来捕捉动作序列,并利用视频中分散的语义知识进行强化。我们的工作有两大核心贡献:首先,开发了情节压缩器(Episodic COmpressor, ECO)模块,可高效聚合从微观到半宏观层面的关键表征,攻克长程依赖难题;其次,提出了语义检索器(Semantics reTRiever, SeTR),通过关注全局上下文为聚合表征注入语义信息,在保留相关宏观信息的同时显著降低特征维度,从而解决冗余信息和高层概念缺失问题。大量实验表明,HERMES在零样本和全监督设置下,于多个长视频理解基准测试中均达到最先进性能。代码将开源发布。
  • [论文翻译]基于统一Transformer框架的群组分割:协同分割、协同显著性检测与视频显著目标检测

    摘要—人类倾向于通过从一组图像或视频的若干帧中学习来挖掘物体,因为我们生活在一个动态的世界中。在计算机视觉领域,许多研究关注于协同分割 (CoS)、协同显著性检测 (CoSD) 和视频显著目标检测 (VSOD) 以发现共现物体。然而,先前的方法针对这些相似任务分别设计了不同的网络,难以相互迁移应用,从而降低了深度学习框架迁移能力的上限。此外,它们未能充分利用一组图像中特征间和特征内的线索。本文提出一个统一框架来解决这些问题,称为 UFO (Unified Framework for Co-Object Segmentation)。具体而言,我们首先引入一个 Transformer 模块,将图像特征视为 patch token,并通过自注意力机制捕获其长程依赖关系。这有助于网络挖掘相关物体间的 patch 结构化相似性。此外,我们提出一个 intra-MLP 学习模块来生成自掩码,以增强网络避免部分激活的能力。在四个 CoS 基准 (PASCAL、iCoseg、Internet 和 MSRC)、三个 CoSD 基准 (Cosal2015、CoSOD3k 和 CocA) 以及四个 VSOD 基准 (DAVIS16、FBMS、ViSal 和 SegV2) 上的大量实验表明,我们的方法在使用相同网络架构的情况下,在三个不同任务的准确性和速度上均优于其他最先进方法,实时速度可达 140 FPS。代码发布于 https://github.com/suyukun666/UFO
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理