• [论文翻译]Semantic 2 Graph: 基于图的多模态特征融合视频动作分割方法

    视频动作分割已广泛应用于多个领域。多数先前研究采用基于视频的视觉模型实现这一目标。但这些方法通常依赖大感受野、LSTM或Transformer方法来捕捉视频中的长时依赖关系,导致计算资源需求显著。为应对这一挑战,基于图的模型被提出。然而,现有基于图的模型精度较低。为此,本研究提出名为Semantic 2 Graph的图结构方法,通过建模视频中的长时依赖关系来降低计算成本并提升精度。我们在帧级别构建视频图结构:使用时序边建模视频中的时序关系与动作顺序;同时设计带权值的正负语义边,以捕捉视频动作的长短期语义关联。节点属性包含从视频内容、图结构和标签文本中提取的多模态特征,涵盖视觉、结构和语义线索。为有效融合多模态信息,我们采用图神经网络(GNN)模型进行节点动作标签分类的多模态特征融合。实验结果表明,Semantic 2 Graph在GTEA和50Salads等基准数据集上性能优于现有最优方法。多项消融实验进一步验证了语义特征对模型性能的提升作用。值得注意的是,Semantic 2 Graph通过引入语义边实现了长时依赖关系的低成本捕捉,有效解决了基于视频的视觉模型面临的算力约束难题。
  • [论文翻译]SCAN: 无需标注的图像分类学习

    在缺乏真实标注的情况下,我们能否自动将图像分组为有语义意义的簇?无监督图像分类任务仍然是计算机视觉领域中一个重要且开放的挑战。最近的一些方法尝试以端到端的方式解决这个问题。在本文中,我们与近期工作不同,提倡采用两步法,将特征学习与聚类解耦。首先,利用表征学习中的自监督任务来获取具有语义意义的特征。其次,我们将这些特征作为可学习聚类方法中的先验。通过这种方式,我们消除了聚类学习依赖低级特征的可能性,而这在当前端到端学习方法中是存在的。实验评估表明,我们的方法大幅领先于现有最优方法,具体而言,在分类准确率上,CIFAR10提高了+26.6%,CIFAR100-20提高了+25.0%,STL10提高了+21.3%。此外,我们的方法是首个在大型图像分类数据集上表现良好的方法。特别是在ImageNet上,我们取得了有希望的结果,并在低数据量情况下,不使用任何真实标注的情况下,优于几种半监督学习方法。代码已公开在此处。
  • [论文翻译]一张图像等价于16x16个词:大规模图像识别中的Transformer应用

    AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 一张图像等价于16x16个词:大规模图像识别中的Transformer应用 Alexey Do sov it ski y∗,†, Lucas Beyer∗, Alexander Kolesnikov∗, Dirk Weiss en born∗, Xiaohua Zhai∗, Thomas Unter thin er, Mostafa Dehghani, Mat... 虽然Transformer架构已成为自然语言处理任务的事实标准,但其在计算机视觉领域的应用仍然有限。在视觉领域,注意力机制要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们证明这种对CNN的依赖并非必要,直接应用于图像块序列的纯Transformer在图像分类任务上也能表现出色。当在大规模数据上进行预训练并迁移至多个中型或小型图像识别基准测试(如ImageNet、CIFAR-100、VTAB等)时,视觉Transformer(ViT)相比最先进的卷积网络能取得优异成果,同时训练所需的计算资源显著减少[1]。
  • [论文翻译]Squeeze BERT:计算机视觉能为 NLP 提供哪些关于高效神经网络的启示?

    人类每天阅读和书写数千亿条消息。此外,由于大规模数据集、大型计算系统和更好的神经网络模型的可用性,自然语言处理(NLP)技术在理解、校对和组织这些消息方面取得了显著进展。因此,在众多应用中部署 NLP 技术以帮助网络用户、社交网络和企业具有巨大的机会。特别是,我们认为智能手机和其他移动设备是规模化部署 NLP 模型的关键平台。然而,当今高度准确的 NLP 神经网络模型(如 BERT 和 RoBERTa)计算成本极高,BERT-base 在 Pixel 3 智能手机上分类一段文本需要 1.7 秒。在这项工作中,我们观察到诸如分组卷积等方法在计算机视觉网络中带来了显著的加速,但许多这些技术尚未被 NLP 神经网络设计者采用。我们展示了如何用分组卷积替换自注意力层中的多个操作,并将这一技术应用于一种名为 Squeeze BERT 的新型网络架构中,该架构在 Pixel 3 上比 BERT-base 快 \$4.3\mathbf{X}\$,同时在 GLUE 测试集上实现了具有竞争力的准确性。Squeeze BERT 代码将公开发布。
  • [博客翻译]使用Segment Anything 2(SAM2)进行视频分割

    想象一下,你手中有一个神奇的工具——Segment Anything Model 2(SAM 2),它是一个强大的统一视频和图像分割模型。这个模型在处理视频时,不仅能识别物体,还能跟踪它们的运动,即使在光照变化、遮挡或物体变形的情况下也能保持高精度。相比之前的版本,SAM 2的性能提升了3倍,对于图像分割更准确,速度比最初的Segment Anything Model(SAM)快了6倍。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理