• [论文翻译]利用局部几何特征和图结构优化基于图神经网络的3D点云处理

    摘要—我们在用于3D点云处理的图神经网络(GNN)通用框架中,提出了简单而有效的点表示方法和局部邻域图构建改进方案。首先,我们提出通过加入点的关键局部几何信息来增强顶点表示,随后使用多层感知机(MLP)进行非线性投影。其次,我们改进了3D点云的GNN图构建方法。
  • [论文翻译]基于概率比率割优化的深度聚类

    我们提出了一种通过将二元分配建模为随机变量来优化图比率割的新方法。我们给出了期望比率割的上界及其梯度的无偏估计,以便在线学习分配变量的参数。我们的概率方法(PRCut)产生的聚类效果优于组合问题的瑞利商松弛、其在线学习扩展以及几种广泛使用的方法。我们证明,PRCut聚类与相似性度量高度一致,并且在提供基于标签的相似性时,其表现可与监督分类器相媲美。这一新方法能够利用现成的自监督表示来实现有竞争力的性能,并可作为评估这些表示质量的方法。
  • [论文翻译]SST: 基于自适应阈值的半监督学习自训练方法

    神经网络在监督学习中表现出色,这得益于大量高质量的标注数据。然而,在实际场景中获取此类数据成本高昂且费时费力。半监督学习(SSL)通过结合少量标注数据和大量未标注数据,为解决这一问题提供了方案。近期研究如Semi-ViT和Noisy Student采用一致性正则化或伪标签技术取得了显著成果,但仍面临挑战——尤其是依赖固定阈值导致难以准确选择足够高质量的伪标签。FlexMatch和FreeMatch等最新方法引入了灵活或自适应的阈值技术,极大推动了SSL研究,但其逐轮迭代更新阈值的过程被认为耗时、计算密集且可能非必要。
  • [论文翻译]DeepMAD: 深度卷积神经网络的数学架构设计

    视觉Transformer (ViT) 的快速发展刷新了各类视觉任务的最先进性能,使传统基于CNN的模型相形见绌。这引发了CNN领域近期几项引人注目的反击研究,表明经过精心调优的纯CNN模型可以达到与ViT模型相当的性能。尽管这一结果令人鼓舞,但设计此类高性能CNN模型具有挑战性,需要深厚的网络设计先验知识。
  • [论文翻译]可见光-热红外行人重识别的参数共享探索与异质中心三元组损失

    摘要—本文聚焦于可见光-热红外跨模态行人重识别(VT Re-ID)任务,其目标是在白天的可见光模态与夜间的热红外模态之间进行行人图像匹配。为应对跨模态差异这一VT Re-ID最具挑战性的问题,现有研究通常采用双流网络通过学习多模态行人特征来解决。本文深入探讨了双流网络应共享多少参数这一尚未被现有文献充分研究的问题。通过拆分ResNet50模型构建模态特定特征提取网络和模态共享特征嵌入网络,我们通过实验验证了双流网络参数共享对VT Re-ID的影响。此外,在局部行人特征学习框架下,我们提出异质中心三元组损失,通过用锚点中心与其他所有中心的比较替代锚点与其他所有样本的严格对比,从而放宽传统三元组损失的约束条件。
  • [论文翻译]基于端到端注意力机制的图学习方法

    近年来,基于Transformer的图学习架构激增,主要驱动力在于注意力机制作为一种高效学习方式,以及取代手工设计消息传递算子的需求。然而,这些架构在实证效果、可扩展性和预处理复杂度等方面存在争议,尤其是在性能与更简单的图神经网络(GNN)相当的广泛基准测试中。为解决这些缺陷,我们将图视为边集合,提出了一种纯注意力架构,包含编码器和注意力池化机制。该编码器通过垂直堆叠掩码自注意力与常规自注意力模块,既能学习有效的边表征,又能处理输入图可能存在的错误定义。尽管结构简单,该方法在70多项节点级和图级任务(包括具有挑战性的长程基准测试)中超越了精细调优的消息传递基线和近期提出的Transformer方法。此外,我们在从分子图到视觉图、异配节点分类等不同任务中实现了最先进性能。在迁移学习场景下,该方法同样优于图神经网络和Transformer模型,且在同等性能或表达能力下展现出更优的扩展性。
  • [论文翻译]图分类任务中图神经网络的公平比较

    实验可复现性和可重复性是机器学习领域的关键议题。学者们经常对科学出版物中缺乏这些要素表示担忧,以期提升该领域的质量。近年来,图表示学习领域吸引了广泛研究社区的关注,由此产生了大量研究成果。为此,人们开发了多种图神经网络 (Graph Neural Network) 模型来有效解决图分类问题。然而,实验流程往往缺乏严谨性且难以复现。受此启发,我们总结了应当避免的常见做法,以公平地与现有最优方法进行比较。为遏制这一不良趋势,我们在受控统一框架下进行了超过47000次实验,重新评估了九种常用基准测试中的五种流行模型。此外,通过将图神经网络与结构无关基线进行比较,我们提供了令人信服的证据:在某些数据集上,结构信息尚未得到有效利用。我们相信,这项工作能为图分类模型的严谨评估提供必要基础,从而推动图学习领域的发展。
  • [论文翻译]动态多任务学习在人脸识别与表情分析中的应用

    得益于深度多任务网络中多任务的联合学习,许多应用相较于单任务学习展现出了优异的性能。然而,多任务学习框架的性能高度依赖于各任务的相对权重。如何分配每个任务的权重是多任务学习中的关键问题。本文摒弃了耗时费力的人工权重调参方式,提出了一种根据任务训练难度动态调整权重的算法。具体而言,该方法无需引入超参数,其简洁结构使得其他多任务深度学习网络能轻松实现或复现。我们基于深度多任务学习卷积神经网络(Conventional Neural Networks, CNNs),通过单张输入图像同时进行人脸识别与面部表情识别的实验验证了该方法的有效性。理论分析与实验结果均表明,所提出的动态多任务学习方法具有显著优势。与当前最先进的单任务学习方法相比,这种动态权重多任务学习机制在不同任务上均实现了性能提升。[1]
  • [论文翻译]展望前路:基于可微分模拟的多智能体轨迹预测

    摘要—我们开发了一种基于完全可微分模拟器的深度生成模型,用于多智能体轨迹预测。智能体采用条件循环变分神经网络(CVRNN)建模,该网络以代表当前世界状态的以自我为中心的鸟瞰图像作为输入,并输出由转向和加速度组成的动作,通过运动学自行车模型推导出后续智能体状态。随后为每个智能体可微分地渲染完整模拟状态,启动下一时间步。我们在INTERACTION数据集上取得了最先进的结果,使用标准神经架构和标准变分训练目标,无需任何临时多样性诱导损失即可生成真实的多模态预测。我们通过消融实验检验模拟器的各个组件,发现运动学自行车模型和来自鸟瞰图像的连续反馈对于实现此性能水平都至关重要。我们将模型命名为ITRA,意为"预想前方道路"。
  • [论文翻译]Π网络:深度多项式神经网络

    深度卷积神经网络 (DCNNs) 是目前计算机视觉和机器学习中生成式与判别式学习的首选方法。DCNNs 的成功可归因于对其构建模块的精心选择 (例如残差块、整流器、复杂的归一化方案等)。本文提出了一类新型 DCNNs——Π-Nets,这是一种多项式神经网络,其输出是输入的高阶多项式。Π-Nets 可通过特殊类型的跳跃连接实现,其参数可用高阶张量表示。我们通过实验证明,在图像、图和音频等多种任务和信号中,Π-Nets 比标准 DCNNs 具有更强的表征能力,甚至在不使用非线性激活函数的情况下也能取得良好效果。当与激活函数结合使用时,Π-Nets 在图像生成等挑战性任务中达到了最先进的水平。最后,我们的框架阐明了 StyleGAN 等近期生成模型为何能超越 ProGAN 等前代模型。
  • [论文翻译]基于自编码器的混合推荐系统

    精通推荐系统高度依赖矩阵分解 (Matrix Factorization, MF) 技术。MF 旨在从不完整且含噪的初始矩阵中重建评分矩阵,进而利用该预测结果构建实际推荐。与此同时,神经网络 (Neural Networks, NN) 在过去十年取得巨大成功,但鲜有研究尝试用自编码器 (autoencoder) 进行推荐。本文汇集了文献中的最佳实践以实现这一目标:首先揭示基于自编码器的方法与 MF 之间的关联;其次改进自编码器的训练方法以处理不完整数据;随后设计端到端系统以整合外部信息;最终在 MovieLens 和豆瓣数据集上对这些方法进行实证评估。
  • [论文翻译]V-Net: 用于三维医学图像分割的全卷积神经网络

    摘要。卷积神经网络 (CNN) 最近被用于解决计算机视觉和医学图像分析领域的问题。尽管很受欢迎,但大多数方法只能处理 2D 图像,而临床实践中使用的大多数医学数据由 3D 体积组成。在这项工作中,我们提出了一种基于体积全卷积神经网络的 3D 图像分割方法。我们的 CNN 在描绘前列腺的 MRI 体积上进行端到端训练,并学会一次性预测整个体积的分割。我们引入了一种新的目标函数,在训练期间对其进行优化,该函数基于 Dice 系数。通过这种方式,我们可以处理前景和背景体素数量严重不平衡的情况。为了应对可用于训练的带注释体积数量有限的问题,我们通过应用随机非线性变换和直方图匹配来增强数据。我们在实验评估中表明,我们的方法在具有挑战性的测试数据上取得了良好的性能,同时只需要其他先前方法所需处理时间的一小部分。
  • [论文翻译]Neural Pre-Processing: 端到端脑部MRI预处理的学xi框架

    摘要:头部MRI预处理涉及将原始图像转换为标准坐标空间中强度归一化且去除颅骨的脑部图像。本文提出一种端到端弱监督学习方法——神经预处理(NPP),通过在大规模数据集上训练的神经网络同时解决这三个子任务,且无需单独的子任务监督。由于整体目标高度欠约束,我们显式解耦了保持几何特性的强度映射(去颅骨和强度归一化)与空间变换(空间归一化)。定量结果表明,该模型在仅处理单个子任务的先进方法中表现更优。消融实验验证了我们为NPP设计的架构重要性。此外,NPP在推理时允许用户灵活控制每个子任务。代码与模型已在https://github.com/Novestars/Neural-Pre-processing开源。
  • [论文翻译]深度高光谱先验:单幅图像去噪、修复与超分辨率

    深度学习算法已在图像修复的多种任务中展现出顶尖性能。这得益于卷积神经网络 (CNN) 从大型样本集中学习的能力。然而,对于高光谱 (hyper spectral) 图像处理而言,由于数据集通常仅包含少量图像,这一优势反而成为瓶颈。本研究提出了一种无需训练、仅利用 CNN 固有特性的新方法,用于高光谱图像数据的去噪、修复和超分辨率重建。实验表明,该算法性能可与训练后的网络相媲美,且不受训练数据可用性的限制。本工作将原始"深度先验 (deep prior)"算法扩展至高光谱成像领域,并采用 3D 卷积网络实现。[20]
  • [论文翻译]基于语言学的自注意力机制在语义角色标注中的应用

    当前最先进的语义角色标注(SRL)采用不带显式语言特征的深度神经网络。然而先前研究表明,黄金标准句法树能显著提升SRL解码效果,这暗示通过显式句法建模可能提高准确率。本文提出语言信息自注意力机制(LISA):该神经网络模型将多头自注意力与依存句法分析、词性标注、谓词检测及SRL的多任务学习相结合。不同于需要大量预处理来准备语言特征的先前模型,LISA仅需原始token作为输入即可融入句法信息,仅需单次编码就能同步执行所有谓词的句法分析、谓词检测和角色标注。通过训练一个注意力头来关注每个token的句法父节点实现句法整合。此外,若已存在高质量句法分析结果,无需重新训练SRL模型即可在测试阶段有效注入该信息。在CoNLL-2005 SRL实验中,LISA在使用预测谓词和标准词嵌入的模型中达到新state-of-the-art性能,新闻报道数据F1值绝对提升2.5,域外数据提升超过3.5 F1,错误率降低近10%。在CoNLL-2012英语SRL任务上同样实现超过2.5 F1的提升。使用上下文编码(ELMo)词表征时,LISA在新闻文本上以近1.0 F1优势、域外文本以超过2.0 F1优势超越现有最佳模型。
  • [论文翻译]德语ASR:详细错误分析

    摘要—基于神经网络的自动语音识别(ASR)开源系统数量持续增长,其预测可靠性也在同步提升。然而,训练模型的评估通常仅基于WER或CER等统计指标,这些指标无法揭示语音输入转写预测过程中产生错误的本质或影响。本研究选取了多个针对德语预训练的ASR模型架构,在多样化测试数据集构成的基准上进行评估。通过识别跨架构的预测错误,将其分类并追溯每类错误的训练数据及其他来源,最终讨论了创建更优质训练数据集和构建更鲁棒ASR系统的解决方案。
  • [论文翻译]Transformer比CNN更鲁棒吗?

    Transformer 成为视觉识别的强大工具。除了在广泛的视觉基准测试中展现出有竞争力的性能外,近期研究还认为 Transformer 比卷积神经网络 (CNN) 更加鲁棒。然而,令人惊讶的是,我们发现这些结论源自不公平的实验设置——Transformer 和 CNN 在不同规模下进行比较,并采用了不同的训练框架。
  • [论文翻译]通用图Transformer自注意力网络

    Transformer自注意力网络已广泛应用于计算机视觉、图像处理和自然语言处理等研究领域,但在图神经网络(GNNs)中尚未得到充分利用,而构建高级聚合函数对GNN至关重要。为此,我们提出U2GNN——一种通过Transformer自注意力机制与循环转移相结合的有效GNN模型,可生成强大的聚合函数来学习图表示。实验结果表明,所提出的U2GNN在图分类的知名基准数据集上达到了最先进的准确率。[20]
  • [论文翻译]基于4D注意力机制的神经网络在EEG情绪识别中的应用

    脑电图(EEG)情绪识别是脑机接口领域的重要任务。尽管近期提出了许多深度学习方法,但如何充分利用EEG信号不同域的信息仍具挑战性。本文提出了一种基于四维注意力神经网络(4D-aNN)的新方法:首先将原始EEG信号转换为4D空间-频谱-时间表征;随后4D-aNN采用频谱和空间注意力机制自适应分配不同脑区与频段的权重,并利用卷积神经网络(CNN)处理4D表征的频谱和空间信息;此外,通过将时间注意力机制整合到双向长短期记忆网络(LSTM)中,探索4D表征的时间依赖性。我们的模型在SEED数据集上实现了被试内划分的最优性能,实验结果证明了不同域注意力机制对EEG情绪识别的有效性。
  • [论文翻译]基于深度神经网络的脑电情绪识别关键频段与通道研究

    摘要—为探究关键频段与通道,本文采用深度信念网络 (DBNs) 构建基于脑电图 (EEG) 的三种情绪识别模型(积极、中性、消极)。我们建立了来自15名被试的EEG数据集,每位被试间隔数日进行两次实验。DBNs训练采用多通道EEG数据提取的微分熵特征,通过分析训练后DBNs的权重来研究关键频段与通道。实验选取了4、6、9和12通道的四种配置方案,识别准确率保持相对稳定(最高达86.65%),甚至优于原始62通道方案。基于DBNs权重确定的关键频段与通道与现有研究发现一致。实验结果证实不同情绪确实存在对应的神经特征标记,且这些标记在不同实验阶段和个体间具有共同特性。深度模型与浅层模型对比显示:DBN、SVM、LR和KNN的平均准确率分别为86.08%、83.99%、82.70%和72.60%。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理