• [论文翻译]基于端到端注意力机制的图学习方法

    近年来,基于Transformer的图学习架构激增,主要驱动力在于注意力机制作为一种高效学习方式,以及取代手工设计消息传递算子的需求。然而,这些架构在实证效果、可扩展性和预处理复杂度等方面存在争议,尤其是在性能与更简单的图神经网络(GNN)相当的广泛基准测试中。为解决这些缺陷,我们将图视为边集合,提出了一种纯注意力架构,包含编码器和注意力池化机制。该编码器通过垂直堆叠掩码自注意力与常规自注意力模块,既能学习有效的边表征,又能处理输入图可能存在的错误定义。尽管结构简单,该方法在70多项节点级和图级任务(包括具有挑战性的长程基准测试)中超越了精细调优的消息传递基线和近期提出的Transformer方法。此外,我们在从分子图到视觉图、异配节点分类等不同任务中实现了最先进性能。在迁移学习场景下,该方法同样优于图神经网络和Transformer模型,且在同等性能或表达能力下展现出更优的扩展性。
  • [论文翻译]图分类任务中图神经网络的公平比较

    实验可复现性和可重复性是机器学习领域的关键议题。学者们经常对科学出版物中缺乏这些要素表示担忧,以期提升该领域的质量。近年来,图表示学习领域吸引了广泛研究社区的关注,由此产生了大量研究成果。为此,人们开发了多种图神经网络 (Graph Neural Network) 模型来有效解决图分类问题。然而,实验流程往往缺乏严谨性且难以复现。受此启发,我们总结了应当避免的常见做法,以公平地与现有最优方法进行比较。为遏制这一不良趋势,我们在受控统一框架下进行了超过47000次实验,重新评估了九种常用基准测试中的五种流行模型。此外,通过将图神经网络与结构无关基线进行比较,我们提供了令人信服的证据:在某些数据集上,结构信息尚未得到有效利用。我们相信,这项工作能为图分类模型的严谨评估提供必要基础,从而推动图学习领域的发展。
  • [论文翻译]展望前路:基于可微分模拟的多智能体轨迹预测

    摘要—我们开发了一种基于完全可微分模拟器的深度生成模型,用于多智能体轨迹预测。智能体采用条件循环变分神经网络(CVRNN)建模,该网络以代表当前世界状态的以自我为中心的鸟瞰图像作为输入,并输出由转向和加速度组成的动作,通过运动学自行车模型推导出后续智能体状态。随后为每个智能体可微分地渲染完整模拟状态,启动下一时间步。我们在INTERACTION数据集上取得了最先进的结果,使用标准神经架构和标准变分训练目标,无需任何临时多样性诱导损失即可生成真实的多模态预测。我们通过消融实验检验模拟器的各个组件,发现运动学自行车模型和来自鸟瞰图像的连续反馈对于实现此性能水平都至关重要。我们将模型命名为ITRA,意为"预想前方道路"。
  • [论文翻译]V-Net: 用于三维医学图像分割的全卷积神经网络

    摘要。卷积神经网络 (CNN) 最近被用于解决计算机视觉和医学图像分析领域的问题。尽管很受欢迎,但大多数方法只能处理 2D 图像,而临床实践中使用的大多数医学数据由 3D 体积组成。在这项工作中,我们提出了一种基于体积全卷积神经网络的 3D 图像分割方法。我们的 CNN 在描绘前列腺的 MRI 体积上进行端到端训练,并学会一次性预测整个体积的分割。我们引入了一种新的目标函数,在训练期间对其进行优化,该函数基于 Dice 系数。通过这种方式,我们可以处理前景和背景体素数量严重不平衡的情况。为了应对可用于训练的带注释体积数量有限的问题,我们通过应用随机非线性变换和直方图匹配来增强数据。我们在实验评估中表明,我们的方法在具有挑战性的测试数据上取得了良好的性能,同时只需要其他先前方法所需处理时间的一小部分。
  • [论文翻译]深度高光谱先验:单幅图像去噪、修复与超分辨率

    深度学习算法已在图像修复的多种任务中展现出顶尖性能。这得益于卷积神经网络 (CNN) 从大型样本集中学习的能力。然而,对于高光谱 (hyper spectral) 图像处理而言,由于数据集通常仅包含少量图像,这一优势反而成为瓶颈。本研究提出了一种无需训练、仅利用 CNN 固有特性的新方法,用于高光谱图像数据的去噪、修复和超分辨率重建。实验表明,该算法性能可与训练后的网络相媲美,且不受训练数据可用性的限制。本工作将原始"深度先验 (deep prior)"算法扩展至高光谱成像领域,并采用 3D 卷积网络实现。[20]
  • [论文翻译]基于语言学的自注意力机制在语义角色标注中的应用

    当前最先进的语义角色标注(SRL)采用不带显式语言特征的深度神经网络。然而先前研究表明,黄金标准句法树能显著提升SRL解码效果,这暗示通过显式句法建模可能提高准确率。本文提出语言信息自注意力机制(LISA):该神经网络模型将多头自注意力与依存句法分析、词性标注、谓词检测及SRL的多任务学习相结合。不同于需要大量预处理来准备语言特征的先前模型,LISA仅需原始token作为输入即可融入句法信息,仅需单次编码就能同步执行所有谓词的句法分析、谓词检测和角色标注。通过训练一个注意力头来关注每个token的句法父节点实现句法整合。此外,若已存在高质量句法分析结果,无需重新训练SRL模型即可在测试阶段有效注入该信息。在CoNLL-2005 SRL实验中,LISA在使用预测谓词和标准词嵌入的模型中达到新state-of-the-art性能,新闻报道数据F1值绝对提升2.5,域外数据提升超过3.5 F1,错误率降低近10%。在CoNLL-2012英语SRL任务上同样实现超过2.5 F1的提升。使用上下文编码(ELMo)词表征时,LISA在新闻文本上以近1.0 F1优势、域外文本以超过2.0 F1优势超越现有最佳模型。
  • [论文翻译]德语ASR:详细错误分析

    摘要—基于神经网络的自动语音识别(ASR)开源系统数量持续增长,其预测可靠性也在同步提升。然而,训练模型的评估通常仅基于WER或CER等统计指标,这些指标无法揭示语音输入转写预测过程中产生错误的本质或影响。本研究选取了多个针对德语预训练的ASR模型架构,在多样化测试数据集构成的基准上进行评估。通过识别跨架构的预测错误,将其分类并追溯每类错误的训练数据及其他来源,最终讨论了创建更优质训练数据集和构建更鲁棒ASR系统的解决方案。
  • [论文翻译]基于深度神经网络的脑电情绪识别关键频段与通道研究

    摘要—为探究关键频段与通道,本文采用深度信念网络 (DBNs) 构建基于脑电图 (EEG) 的三种情绪识别模型(积极、中性、消极)。我们建立了来自15名被试的EEG数据集,每位被试间隔数日进行两次实验。DBNs训练采用多通道EEG数据提取的微分熵特征,通过分析训练后DBNs的权重来研究关键频段与通道。实验选取了4、6、9和12通道的四种配置方案,识别准确率保持相对稳定(最高达86.65%),甚至优于原始62通道方案。基于DBNs权重确定的关键频段与通道与现有研究发现一致。实验结果证实不同情绪确实存在对应的神经特征标记,且这些标记在不同实验阶段和个体间具有共同特性。深度模型与浅层模型对比显示:DBN、SVM、LR和KNN的平均准确率分别为86.08%、83.99%、82.70%和72.60%。
  • [论文翻译]ARBEx: 基于注意力特征提取与可靠性平衡的鲁棒面部表情学习

    摘要—本文提出ARBEx框架,这是一种由Vision Transformer驱动的新型注意力特征提取框架,通过可靠性平衡机制应对面部表情学习(FEL)任务中的类别分布不均、偏差和不确定性问题。我们整合了多种数据预处理与优化方法,结合基于窗口的交叉注意力ViT架构以充分挖掘数据潜力。在嵌入空间中引入可学习的锚点与标签分布,配合多头自注意力机制,通过可靠性平衡策略(该策略利用锚点、注意力分数和置信度值来增强标签预测的鲁棒性)优化弱预测场景下的性能。为确保正确标签分类并提升模型判别力,我们提出锚点损失函数以扩大锚点间距。此外,可训练的多头自注意力机制对精准标签识别具有关键作用。该方法为提升预测可靠性提供了核心要素,对最终预测能力产生显著正向影响。我们的自适应模型可与任何深度神经网络集成,以应对各类识别任务中的挑战。多场景实验表明,该策略性能优于当前最先进方法。
  • [论文翻译]无限记忆Transformer

    在阅读或撰写文档时,记住先前读写的信息至关重要。人类具有出色的长期上下文记忆能力,能够持续保留相关细节 (Carroll, 2007; Kuhbandner, 2020)。近年来,基于Transformer的语言模型通过扩大上下文窗口取得了显著成果 (Radford et al., 2018, 2019; Dai et al., 2019; Rae et al., 2019; Brown et al., 2020)。但与人类顺序处理信息并持续更新记忆不同,循环神经网络 (RNN) 随时间更新单一记忆向量,而Transformer会对所有历史事件关联的表征进行全局查询。因此,其计算量会随上下文长度增长而增加,导致Transformer存在内存信息容量的计算限制。例如,标准Transformer处理输入序列需要二次方时间,生成每个新词时关注上下文则需线性时间。
  • [论文翻译]深度学习在微笑识别中的应用

    受深度学习在计算机视觉领域近期成果的启发,我们提出了一种将深度卷积神经网络应用于面部表情识别(特别是微笑识别)的新方法。在Denver Intensity of Spontaneous Facial Action (DISFA) 数据库上,该方法实现了99.45%的微笑识别准确率,显著优于基于手工特征的现有方法(准确率区间为65.55%至79.67%)。
  • [论文翻译]用于联合实体和关系抽取的分区过滤网络

    在联合实体与关系抽取任务中,现有方法要么通过顺序编码任务特定特征导致任务间特征交互失衡(后提取的特征无法直接影响先提取的特征),要么采用并行方式编码实体特征和关系特征(除输入共享外,各任务的特征表示学习基本相互独立)。我们提出分区过滤网络(Partition Filter Network)来建模任务间的双向交互,将特征编码分解为分区和过滤两个步骤。该编码器通过实体门控和关系门控将神经元划分为两个任务分区和一个共享分区:共享分区表征对两个任务均有价值的跨任务信息,并均匀分配给双方以保证有效双向交互;任务分区表征任务内部信息,通过双门控协同形成,确保任务特定特征的编码过程相互依存。在六个公开数据集上的实验表明,本模型性能显著优于现有方法。辅助实验还发现,与既有结论相反,关系预测对命名实体预测存在不可忽视的贡献。
  • [论文翻译]通过随机网络中的赫布可塑性进行元学习

    Meta-Learning through Hebbian Plasticity in Random Networks 通过随机网络中的赫布可塑性进行元学习 Elias Najarro and Sebastian Risi IT University of Copenhagen 2300 Copenhagen, Denmark enaj@itu.dk, sebr@itu.dk Elias Najarro 和 Sebastian Risi 哥本哈根信息技术大学 丹麦哥本哈根 2300 enaj@itu.dk,... 终身学习与适应能力是生物智能体的两大核心特征。现代强化学习(RL)方法在解决复杂任务方面取得了显著进展,但训练结束后所得解决方案通常是静态的,无法适应新信息或环境扰动。尽管生物大脑如何高效地从经验中学习与适应的机制尚未完全阐明,但突触可塑性被认为在此过程中起着关键作用。受此生物机制启发,我们提出了一种搜索方法:不直接优化神经网络权重参数,而是搜索特定突触的赫布学习规则(Hebbian learning rules),使网络能在智能体生命周期内持续自组织调整权重。我们在多个具有不同感官模态的强化学习任务中验证了该方法,涉及超过45万个可训练可塑性参数。实验表明:从完全随机权重出发,所发现的赫布规则能使智能体在动态2D像素环境中自主导航;同样使模拟3D四足机器人在100个时间步内学会行走,并能适应训练中未出现的形态损伤,且无需任何显式奖励或误差信号。代码详见https://github.com/enajx/HebbianMetaLearning。
  • [论文翻译]给生物学家的机器学习指南

    过去几十年,生物数据集的规模与复杂性大幅增长,这使得机器学习越来越多地用于为潜在生物过程构建信息与预测模型。所有机器学习技术都在让模型与数据相匹配;然而,具体的方法多种多样,乍一看似乎令人眼花缭乱。对于不同类型的生物数据,该如何选择特定的机器学习技术? 2021年9月,发表在Nature Reviews Molecular Cell Biology上的综述文章“给生物学家的机器学习指南”,向读者简要介绍了一些关键的机器学习技术:既包括分类、回归、聚类模型等传统机器学习方法,也包括最近开发和广泛使用的涉及深度神经网络的技术。本文还记录了一些最佳做法与入门要点,并展望了机器学习应用于生物学的一些最令人兴奋的前景。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理