• [论文翻译]重新审视基于骨架的动作识别

    人体骨架作为人类动作的紧凑表示形式,近年来受到越来越多的关注。许多基于骨架的动作识别方法采用GCN(图卷积网络)在人体骨架上提取特征。尽管这些尝试显示出积极成果,但基于GCN的方法在鲁棒性、互操作性和可扩展性方面存在局限。本文提出PoseConv3D,一种基于骨架动作识别的新方法。该方法以3D热图体积而非图序列作为人体骨架的基础表示。与基于GCN的方法相比,PoseConv3D能更有效地学习时空特征,对姿态估计噪声具有更强鲁棒性,并在跨数据集场景中表现更优。此外,PoseConv3D无需额外计算成本即可处理多人场景。其分层特征可轻松与其他模态在早期融合阶段集成,为性能提升提供了广阔设计空间。PoseConv3D在六个标准骨架动作识别基准中的五个取得最优结果,当与其他模态融合时,在全部八个多模态动作识别基准上均达到最优。代码已开源:https://github.com/kennymckormick/pyskl。
  • [论文翻译]类别难度平衡损失函数解决类别不平衡问题

    摘要。类别不平衡是现实世界数据集中的主要挑战之一,其中少数类别(称为多数类)包含的数据样本远多于其他类别(称为少数类)。使用此类数据集训练深度神经网络通常会导致模型性能偏向多数类。先前的研究大多通过以不同方式(如数据重采样、代价敏感学习)为少数类分配更高权重来解决类别不平衡问题。然而,我们认为可用训练数据量未必总是确定权重分配策略的良好依据,因为某些少数类可能仅需少量训练数据即可充分表征。对此类样本过度加权反而会导致模型整体性能下降。我们提出模型的"类别难度"感知才是确定权重的关键因素。基于此,我们提出了一种名为类别难度平衡损失(Class-wise Difficulty-Balanced loss,CDB损失)的新型损失函数,该函数根据样本所属类别的难度动态分配权重。值得注意的是,随着学习进程中模型感知难度的变化,分配的权重也会动态调整。我们在图像数据集(人工构建类别不平衡的MNIST、长尾CIFAR和ImageNet-LT)和视频数据集(EGTEA)上进行了大量实验。结果表明,无论数据类型(视频或图像)如何,CDB损失在类别不平衡数据集上的表现始终优于最近提出的损失函数。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理