• [论文翻译]基于锐度感知最小化的高效泛化提升方法

    在当今高度过参数化的模型中,训练损失值对模型泛化能力的保证十分有限。事实上,仅优化训练损失值(这是常见做法)很容易导致模型质量欠佳。受先前关于损失函数几何形状与泛化能力关联研究的启发,我们提出了一种新颖有效的方法,可同时最小化损失值和损失锐度。具体而言,我们的锐度感知最小化(Sharpness-Aware Minimization,SAM)方法会寻找处于均匀低损失邻域的参数;该方案形成了一个可通过梯度下降高效求解的极小极大优化问题。实验结果表明,SAM在多种基准数据集(如CIFAR \$\{10,100\}\$、ImageNet、微调任务)和模型上均提升了泛化能力,并在多项任务中创造了最新最优性能。此外,我们发现SAM天然具备与专门针对噪声标签学习的最先进方法相当的标签噪声鲁棒性。代码已开源:https://github.com/google-research/sam。
  • [论文翻译]基于任务特定预训练的少样本命名实体识别多任务语义分解框架

    少样本命名实体识别的目标是在有限标注实例下识别命名实体。先前研究主要聚焦于优化传统的基于token的分类框架,而忽视了基于NER数据特性的信息探索。为解决这一问题,我们提出通过联合任务特定预训练的多任务语义分解框架(MSDP)。受基于演示和对比学习的启发,我们引入两项新颖的预训练任务:基于演示的掩码语言建模(MLM)和类别对比判别。这些任务有效整合了实体边界信息,并增强了预训练语言模型(PLM)中的实体表示能力。在下游主任务中,我们采用语义分解方法构建多任务联合优化框架,促使模型融合两种不同语义信息进行实体分类。两个少样本NER基准测试的实验结果表明,MSDP始终以显著优势超越强基线模型。大量分析验证了MSDP的有效性和泛化能力。
  • [论文翻译]大语言模型预训练中的模型合并

    模型合并已成为增强大语言模型的一项前景广阔的技术,但其在大规模预训练中的应用仍相对未被探索。本文全面研究了预训练过程中的模型合并技术。通过对参数规模从数百万到超过1000亿的密集结构和专家混合 (MoE) 架构进行大量实验,我们发现:使用恒定学习率训练的检查点进行合并不仅能显著提升性能,还能准确预测退火行为。这些改进既能提高模型开发效率,又能大幅降低训练成本。我们对合并策略和超参数的详细消融研究为底层机制提供了新见解,同时揭示了新颖应用。通过全面的实验分析,我们为开源社区提供了有效的模型合并实用预训练指南。
  • [论文翻译]IDOL: 面向指标的逻辑预训练推理框架

    在机器阅读理解(MRC)领域,现有系统已在SQuAD等多项任务中超越人类平均水平。然而在逻辑推理方面,现有研究仍存在明显差距。虽然已有部分方法被提出,但这些方案要么设计过于复杂,要么过度依赖外部结构。本文提出IDOL(InDicator-Oriented Logic Pre-training),这是一种通过6类逻辑指示符和富含逻辑的数据集LGP(LoGic Pre-training)来增强预训练模型逻辑能力的方案。
  • [论文翻译]从姿态到身份:基于特征中心化的免训练行人重识别

    行人重识别(ReID)旨在提取准确的身份表征特征。然而在特征提取过程中,个体样本难免会受到噪声(背景、遮挡和模型局限)的影响。考虑到训练后同一身份的特征会围绕身份中心呈正态分布,我们提出了一种免训练特征中心化ReID框架(Pose2ID),通过聚合相同身份特征来降低个体噪声并增强身份表征的稳定性,同时保留特征的原始分布以支持重排序等后续策略。具体而言,为获取同身份样本,我们引入两个组件:①身份引导的行人生成:通过身份特征指导生成过程,获得具有多样姿态的高质量图像,即使在红外、遮挡等复杂场景下也能保持身份一致性;②邻域特征中心化:从样本邻域中挖掘潜在正样本。实验表明,我们的生成模型展现出强大的泛化能力并保持高度身份一致性。借助特征中心化框架,仅使用ImageNet预训练模型(未经ReID训练)即可在Market1501上取得52.8%/78.92%的mAP/Rank-1优异表现。此外,本方法在标准、跨模态和遮挡ReID任务中均刷新了当前最优性能,展现出强大的适应性。
  • [论文翻译]为什么这是仇恨言论?基于遮蔽理由预测的可解释仇恨言论检测

    在仇恨言论检测模型中,除检测性能外还需考虑两个关键因素——偏差(bias)和可解释性(explainability)。仇恨言论不能仅通过特定词汇存在与否进行判定:模型应具备类人推理能力且决策过程可解释。为提升这两方面的性能,我们提出掩码依据预测(Masked Rationale Prediction, MRP)作为中间任务。MRP通过结合周边token及其未掩码依据(rationales)——即支撑人类判断的句子片段——来预测被掩码的人类判断依据。当模型通过MRP学习基于依据的推理能力时,能在偏差控制和可解释性方面实现稳健的仇恨言论检测。所提方法在多项指标上普遍达到最先进性能,验证了其对仇恨言论检测的有效性。警告:本文包含可能引起不适的示例内容。
  • [论文翻译]UnLoc: 视频定位任务的统一框架

    虽然CLIP等大规模图文预训练模型已应用于经过剪辑视频的多种视频级任务,但其在未剪辑视频中进行时序定位的用途仍是一个相对未被探索的领域。我们为此设计了名为UnLoc的新方法,该方法利用预训练的图文双塔架构,将token输入视频-文本融合模型。融合模块的输出用于构建特征金字塔,其中每一层级连接至预测逐帧相关性分数及起止时间位移的检测头。与先前工作不同,我们的架构通过单阶段模型即可实现片段检索、时序定位和动作分割,无需动作提案、基于运动的预训练特征或表征掩码。不同于专用模型,我们采用统一方法在三种不同的定位任务上均取得了最先进的成果。代码将在以下地址发布:https://github.com/google-research/scenic。
  • [论文翻译]多视角超复数学习在乳腺癌筛查中的应用

    摘要—传统上,用于乳腺癌分类的深度学习方法仅进行单视图分析。然而,由于乳腺X光检查视图间存在相关性,放射科医师会同时分析构成乳腺X光检查的所有四个视图,这些相关性为识别肿瘤提供了关键信息。鉴于此,一些研究开始提出多视图方法。然而,在此类现有架构中,乳腺X光视图被独立的卷积分支作为独立图像处理,从而丢失了它们之间的相关性。为克服这些限制,本文提出了一种基于参数化超复数神经网络的多视图乳腺癌分类方法。得益于超复数代数特性,我们的网络能够建模并利用构成乳腺X光的不同视图间的现有相关性,从而模拟临床医生的阅片过程。这是因为超复数网络既能像标准神经模型一样捕获全局属性,又能捕获实值网络无法建模的局部关系(即视图间相关性)。我们定义了处理双视图检查的架构PHResNets,以及处理四视图检查的架构PHYSEnet和PHYBOnet。通过在公开数据集上进行的广泛实验评估,我们证明所提模型明显优于实值对应模型和最先进方法,证实乳腺癌分类能从所提多视图架构中受益。我们还通过考虑不同基准测试及更精细的分割任务,评估了该方法在乳腺X光分析之外的泛化能力。实验完整复现所需的全部代码和预训练模型已开源:https://github.com/ispamm/PHBreast。
  • [论文翻译]基于亚像素热图回归的面部关键点定位

    基于热图回归的深度学习模型彻底改变了面部关键点定位任务,现有模型在大姿态、非均匀光照与阴影、遮挡与自遮挡、低分辨率及模糊条件下均表现出强大鲁棒性。然而,尽管热图回归方法被广泛采用,其仍存在由离散化过程引发的编码与解码误差。本研究表明,这些误差对面部对齐精度存在超乎预期的显著负面影响。为解决该问题,我们提出一种利用底层连续分布的新型热图编解码方法。为充分发挥新编解码机制的优势,我们还引入了基于孪生网络的训练策略,通过强制热图在不同几何图像变换下的一致性实现性能提升。该方法在多个数据集上取得显著效果提升,创造了面部关键点定位任务的新标杆。预训练模型及代码将在此公开。
  • [论文翻译]尺度等变性提升孪生跟踪性能

    Siamese跟踪器将跟踪任务转化为模板与帧中候选区域之间的相似性估计。从数学角度看,相似度函数成功的关键要素之一是平移等变性 (translation equivariance)。非平移等变的架构会在训练过程中引入位置偏差,导致难以从特征空间恢复目标位置。在现实场景中,目标除了平移还会经历旋转、缩放等多种变换。除非模型具备内部机制处理这些变换,否则相似度可能会下降。本文聚焦缩放变换,旨在为Siamese网络赋予额外的内置尺度等变性 (scale equivariance),从而先验地捕捉目标的自然形变。我们建立了尺度等变Siamese跟踪器的理论框架,并给出通用方案使现有跟踪器具备尺度等变性。基于该方案,我们提出了SiamFC的尺度等变改进版本SE-SiamFC。在OTB、VOT基准测试及合成的T-MNIST、S-MNIST数据集上的实验表明,内置的额外尺度等变性对视觉目标跟踪具有显著价值。
  • [论文翻译]VideoMAE V2: 采用双重掩码策略扩展视频掩码自编码器

    规模是构建能够良好泛化到各种下游任务的强大基础模型 (foundation model) 的主要因素。然而,训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明,视频掩码自编码器 (VideoMAE) 是一种可扩展且通用的自监督预训练方法,可用于构建视频基础模型。我们通过核心设计在模型和数据两方面对 VideoMAE 进行了扩展。具体而言,我们提出了一种双掩码策略以实现高效预训练:编码器处理视频 token 的一个子集,解码器处理另一个子集。尽管 VideoMAE 由于编码器的高掩码率已经非常高效,但对解码器进行掩码仍能进一步降低整体计算成本。这使得在视频领域高效预训练十亿级模型成为可能。我们还采用了一种渐进式训练范式:首先在多样化的多源无标注数据集上进行初始预训练,然后在混合标注数据集上进行后预训练。最终,我们成功训练了一个具有十亿参数的视频 ViT 模型,在 Kinetics (K400 上 90.0%,K600 上 89.9%) 和 Something-Something (V1 上 68.7%,V2 上 77.0%) 数据集上取得了新的最先进性能。此外,我们在多种下游任务上广泛验证了预训练视频 ViT 模型的效果,证明了其作为通用视频表示学习器的有效性。
  • [论文翻译]基于视频Transformer的端到端时空动作定位

    性能最优的时空动作定位模型通常依赖外部人物提议框和复杂的外部记忆库。我们提出了一种完全端到端、纯Transformer架构的模型,可直接输入视频并输出管状体(tubelet)——即一系列边界框序列及每帧对应的动作类别。该灵活模型既支持基于单帧稀疏边界框标注的训练,也可利用完整管状体标注进行训练,且两种情况下均能预测出连贯的管状体输出。此外,我们的端到端模型既不需要提议框等预处理步骤,也无需非极大值抑制等后处理操作。通过大量消融实验,我们在四个时空动作定位基准测试(包含稀疏关键帧标注和完整管状体标注两种设置)上显著提升了当前最优性能。
  • [论文翻译]展示Berkeley Humanoid Lite:一款开源、易获取且可定制的3D打印人形机器人

    摘要—尽管人形机器人领域备受关注且发展迅速,但现有商用硬件大多成本高昂、系统封闭且对机器人学界缺乏透明度。这种可获取性与可定制性的缺失阻碍了该领域的进步及人形技术的广泛发展。为应对这些挑战并推动人形机器人技术的民主化,我们推出Berkeley Humanoid Lite——一个开源人形机器人平台,其设计宗旨是为整个研究社区提供可获取、可定制且具有普适价值的解决方案。该设计的核心是采用模块化3D打印齿轮箱作为执行器与机器人主体的基础构件。所有组件均可通过主流电商平台采购,并使用标准桌面级3D打印机制造,总硬件成本控制在5,000美元以内(基于美国市场价格)。设计着重强调模块化与易制造特性。针对3D打印齿轮箱在强度与耐久性方面相较金属制品的固有局限,我们采用摆线齿轮设计,在此应用场景中实现了最优形态因子。通过对3D打印执行器进行大量测试,我们验证了其耐久性,消除了对塑料部件可靠性的疑虑。为展示Berkeley Humanoid Lite的性能,我们开展了一系列实验,包括使用强化学习开发运动控制器。这些实验成功实现了从仿真到硬件的零样本策略迁移,证明了该平台在研究验证方面的适用性。通过全面开源硬件设计、嵌入式代码及训练部署框架,我们希望Berkeley Humanoid Lite能成为推动人形机器人开发民主化进程的关键一步。所有资源详见https://lite.berkeley-humanoid.org。
  • [论文翻译]PRIMERA: 基于金字塔结构的遮蔽句子预训练用于多文档摘要

    我们推出PRIMERA,这是一种专注于摘要生成的多文档表征预训练模型,减少了对数据集特定架构和大量微调标注数据的需求。PRIMERA采用我们新提出的预训练目标,旨在教会模型跨文档连接和聚合信息。它还使用高效的编码器-解码器Transformer来简化拼接输入文档的处理。通过在零样本、少样本和全监督设置下对来自3个不同领域的6个多文档摘要数据集进行广泛实验,PRIMERA在大多数设置中以显著优势超越了当前最先进的数据集特定模型和预训练模型。[20]
  • [论文翻译]删除、检索、生成:一种简单的情感与风格迁移方法

    我们研究文本属性迁移任务:通过改变句子中的特定属性(如情感)同时保留其属性无关内容(例如将"屏幕大小刚好"改为"屏幕太小")。训练数据仅包含带有属性标签的句子(如正面或负面),而没有仅属性不同的句子对,因此必须以无监督方式学习分离属性与属性无关内容。先前使用对抗方法的研究难以生成高质量输出。本文基于"文本属性通常由特定短语标记(如'太小')"这一观察,提出了更简单的方法。我们最优的方法通过删除与原属性相关的短语来提取内容词,检索与目标属性相关的新短语,并利用神经模型流畅组合生成最终输出。在人工评估中,我们的最佳方法在三个属性迁移数据集(修改Yelp评论情感、修改Amazon评论情感、使图片描述更浪漫或幽默)上平均比之前最优系统多产生22%语法正确且内容恰当的输出。
  • [论文翻译]PAtt-Lite: 轻量级补丁与注意力MobileNet用于挑战性面部表情识别

    摘要 面部表情识别(FER)是一项通过机器学习识别人类面部表情的技术。尽管现有研究近年来取得了性能提升,但在复杂环境和挑战性条件下的FER仍存在困难。本文提出了一种基于MobileNetV1的轻量级局部特征与注意力网络(PAtt-Lite),用于提升挑战性条件下的FER性能。该方法采用截断的ImageNet预训练MobileNetV1作为主干特征提取器,并在截断层位置设计了局部特征提取模块,用于捕获关键的面部局部特征以增强MobileNetV1的表征能力,特别是在挑战性条件下。
  • [论文翻译]基于BERT的口语和书面指令摘要生成

    语音摘要由于语言流的自发性、不流畅性以及其他书面文本中通常不存在的问题而成为一个难题。我们的工作首次将BERTSum模型应用于会话语言。我们针对从园艺、烹饪到软件配置和体育等各种主题的叙述性教学视频生成抽象摘要。为了丰富词汇量,我们采用迁移学习技术,在多个大型跨领域数据集(包含书面和口语英语)上对模型进行预训练。同时,我们对转录文本进行预处理,以恢复自动语音识别(ASR)系统输出中的句子分割和标点符号。通过ROUGE和Content-F1评分对How2和WikiHow数据集的结果进行评估。我们邀请人工评审员对从HowTo100M和YouTube精选数据集中随机选取的摘要进行评分。基于盲测评估,我们的模型在文本流畅性和实用性方面达到了接近人类内容创作者撰写摘要的水平。该模型在风格主题差异显著的WikiHow文章上表现优于当前SOTA(State-of-the-art)模型,同时在经典CNN/DailyMail数据集上未出现性能衰退。由于该模型在不同风格和领域间具有高度泛化能力,其在提升互联网内容可访问性与可发现性方面具有巨大潜力。我们设想将其集成到智能虚拟助手中,使其能够根据需求对书面和口语教学内容进行摘要生成。
  • [论文翻译]结合 EfficientNet 和 Vision Transformer 进行视频深度伪造检测

    摘要。深度伪造(Deepfakes)是通过数字处理技术生成逼真虚假图像的结果。随着深度生成模型的惊人进步,如今可以使用变分自编码器(VAEs)或生成对抗网络(GANs)来获取伪造图像或视频。这些技术正变得越来越易用且精确,导致生成的伪造视频极难被检测。传统上,卷积神经网络(CNNs)被用于视频深度伪造检测,其中基于EfficientNet B7的方法取得了最佳效果。本研究聚焦于人脸视频深度伪造检测,鉴于大多数方法在生成逼真人脸方面已变得极为精确。具体而言,我们将多种视觉Transformer与作为特征提取器的卷积EfficientNet B0相结合,获得了与近期使用视觉Transformer方法相当的结果。与现有技术方法不同,我们既未使用蒸馏也未采用集成方法。此外,我们提出了一种基于简单投票方案的直接推理流程,用于处理同一视频镜头中的多张人脸。最佳模型取得了0.951的AUC值和88.0%的F1分数,非常接近深度伪造检测挑战赛(DFDC)的最先进水平。重现我们结果的代码已公开在此处:https://github.com/davide-coccomini/
  • [论文翻译]基于元迁移学习的少样本学习

    元学习(Meta-learning)被提出作为解决少样本学习挑战性场景的框架。其核心思想是利用大量相似的少样本任务,学习如何将基础学习器(base-learner)适配到仅有少量标注样本的新任务中。由于深度神经网络(DNN)容易在少量样本下过拟合,元学习通常采用浅层神经网络(SNN),从而限制了其效果。本文提出一种名为元迁移学习(MTL)的新型少样本学习方法,通过学习调整深度神经网络以适应少样本学习任务。具体而言,"元"指训练多个任务,"迁移"则通过为每个任务学习DNN权重的缩放和偏移函数实现。此外,我们引入硬任务(HT)元批次方案作为MTL的有效课程学习策略。我们在两个具有挑战性的少样本学习基准数据集(mini ImageNet和Fewshot-CIFAR100)上进行了(5类1样本)和(5类5样本)识别任务的实验。与相关工作的广泛对比验证了采用HT元批次训练的元迁移学习方法达到了最优性能。消融实验也表明,两个组件共同促进了快速收敛和高准确率[20]。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理