• [论文翻译]SleePyCo: 基于特征金字塔与对比学习的自动睡眠分期

    摘要—自动睡眠评分对睡眠障碍的诊断治疗及家庭环境下的长期睡眠监测至关重要。传统上,基于单通道脑电图(EEG)的学习型自动睡眠评分研究十分活跃,因为睡眠期间获取多通道信号较为困难。然而,从原始EEG信号中学习表征存在两大挑战:1)睡眠相关EEG模式会出现在不同的时间和频率尺度上;2)不同睡眠阶段具有相似的EEG模式。为此,我们提出了名为SleePyCo的深度学习框架,其包含两大核心组件:1)特征金字塔结构;2)用于自动睡眠评分的监督对比学习。针对特征金字塔,我们设计了SleePyCo-backbone主干网络来处理不同时空尺度下的多特征序列。监督对比学习通过最小化类内特征距离同时最大化类间特征距离,使网络能提取具有类别判别力的特征。在四个公开数据集上的对比实验表明,SleePyCo在单通道EEG基准上持续优于现有框架。大量消融实验证实,该框架在N1阶段与快速眼动(REM)阶段的区分度上表现尤为突出,整体性能显著提升。
  • [论文翻译]PeFoMed: 面向医学影像的多模态大语言模型参数高效微调

    多模态大语言模型 (MLLM) 是对传统大语言模型能力的进化扩展,使其能够应对超越纯文本应用范围的挑战。它利用先前编码在这些语言模型中的知识,从而增强其在多模态领域的适用性和功能性。近期研究探索将MLLM作为通用解决方案,以生成式任务形式处理医学多模态问题。本文提出一种参数高效的MLLM微调框架,在医学视觉问答 (Med-VQA) 和医学报告生成 (MRG) 任务上使用公开基准数据集进行验证。我们还引入基于5级李克特量表及其加权平均值的评估指标,用于衡量MRG任务生成报告的质量,其中量表评分由人工标注和GPT-4模型共同完成。我们进一步评估了VQA和MRG任务在传统指标、GPT-4评分与人工评分之间的一致性。结果表明,使用GPT-4进行的语义相似性评估与人工标注高度吻合且稳定性更优,但与传统词汇相似性测量存在差异。这对词汇相似性指标在评估Med-VQA和报告生成任务中生成模型性能的可靠性提出了质疑。此外,我们的微调模型显著优于GPT-4v,这表明如GPT-4v等多模态模型未经额外微调时,在医学影像任务上表现不佳。代码将发布于:https://github.com/jinlHe/PeFoMed。
  • [论文翻译]请引用该论文为:F. Haghighi, M. R. Hossein za deh Taher, Z. Zhou, M. B. Gotway, 和 J. Liang. 《通过自我发现、自我分类和自我恢复学习语义增强表示》。国际医学图像计算与计算机辅助干预会议 (MICCAI), 2020。

    摘要:医学图像天然蕴含丰富的人体解剖语义信息,通过大量重复出现的解剖模式得以体现,这为深度语义表征学习提供了独特潜力,能够为不同医疗应用训练出语义理解能力更强的模型。然而如何有效利用医学图像中这种强大且自由的语义信息进行自监督学习,目前仍存在大量探索空间。为此,我们训练深度模型通过自主发现、自主分类和自主还原医学图像底层解剖结构,学习语义增强的视觉表征,最终获得名为Semantic Genesis的通用预训练3D模型。我们在六项不同目标任务(涵盖CT、MRI和X射线等多种医学模态的分类与分割)上,对所有公开可用的预训练模型(包括自监督和全监督方法)进行了全面测试。大量实验表明,Semantic Genesis显著优于所有3D对比模型以及基于ImageNet的传统2D迁移学习方法。这一优异表现源于我们新颖的自监督学习框架,该框架促使深度模型从医学图像中固有解剖结构所产生的大量解剖模式中学习具有说服力的语义表征。代码及预训练模型详见https://github.com/JLiangLab/SemanticGenesis。
  • [论文翻译]双向ConvLSTM U-Net与密集连接卷积

    近年来,基于深度学习的网络在医学图像分割领域取得了最先进的性能。在现有网络中,U-Net已成功应用于医学图像分割。本文提出了一种U-Net的扩展架构——双向ConvLSTM密集连接卷积U-Net (BCDU-Net) ,该模型综合运用了U-Net、双向ConvLSTM (BConvLSTM) 和密集卷积机制的优势。与U-Net跳跃连接中简单的拼接操作不同,我们采用BConvLSTM以非线性方式融合来自编码路径的特征图与解码上采样层的特征图。为增强特征传播并促进特征复用,我们在编码路径的最后一个卷积层采用密集连接卷积。此外,通过引入批归一化 (BN) 可加速网络收敛速度。该模型在视网膜血管分割、皮肤病变分割和肺结节分割三个数据集上均达到当前最优性能。
  • [论文翻译]填充K空间与优化图像:动态多对比MRI重建的提示方法

    摘要。动态或多对比度磁共振成像(MRI)重建的关键在于探索帧间或对比度间的信息。当前,展开模型(unrolled model)作为将迭代MRI重建步骤与可学习神经网络层相结合的方法,已成为MRI重建中性能最佳的技术。然而该方法存在两个主要局限:首先,展开模型结构和GPU内存限制制约了网络中每个去噪模块的容量,阻碍了有效提取重建所需的细节特征;其次,现有模型缺乏适应输入变化的灵活性(如不同对比度、分辨率或扫描视角),需要为每种输入类型单独训练模型,这种低效方式可能导致重建效果不足。本文提出两阶段MRI重建流程来解决这些问题。第一阶段通过物理驱动方式完成k空间缺失数据填充:首先构建利用相邻帧/对比度及通道注意力捕捉固有帧间相关性的高效基线模型,进而扩展为基于提示学习(prompt-based learning)的PromptMR框架,实现多视角、多对比度、多邻域类型及加速因子的统一重建。第二阶段将首阶段重建结果视为通用视频修复问题,在图像域进一步融合相邻帧/对比度特征。大量实验表明,本方法显著优于现有最先进的加速MRI重建技术。
  • [论文翻译]Zalan Fabian 美国南加州大学电气与计算机工程系 洛杉矶 zfabian@usc.edu

    在加速MRI重建中,患者解剖结构需从一组欠采样且含噪声的测量数据中恢复。深度学习方法已被证实在解决这一不适定逆问题上卓有成效,并能生成极高质量的重建结果。然而,当前架构严重依赖卷积运算——这种与内容无关的操作难以建模图像中的长程依赖关系。近年来,作为现代自然语言处理核心的Transformer模型,已在众多视觉任务中展现出强大的构建潜力。这类模型将输入图像分割为不重叠的图块,将其嵌入低维token,并采用不受卷积架构固有缺陷限制的自注意力机制。但Transformer存在极高计算内存开销的问题:1) 输入图像分辨率较高时;2) 需将图像分割为大量图块以保留精细细节时——这两种情况在MRI重建等底层视觉问题中普遍存在且会产生叠加效应。为应对这些挑战,我们提出HUMUS-Net:一种在展开式多尺度网络中融合卷积的隐式偏置优势与Transformer模块能力的混合架构。该网络通过卷积块提取高分辨率特征,并借助新型基于Transformer的多尺度特征提取器优化低分辨率特征,最终将多层级特征合成为高分辨率重建输出。我们的网络在最大公开MRI数据集fastMRI上创造了新性能标杆,并在另外两个主流MRI数据集上验证了其优越性,同时通过细粒度消融实验证实了设计有效性。
  • [论文翻译]用于加速MRI重建的端到端变分网络

    摘要。磁共振成像(MRI)的缓慢采集速度催生了两类互补方法:同步采集多视角解剖结构(并行成像)和采集少于传统信号处理方法所需样本量(压缩感知)。虽然这些方法的结合有望实现更快的扫描速度,但从这种欠采样的多线圈数据中重建图像仍是一个悬而未决的问题。本文提出一种新方法,通过端到端学习扩展了先前提出的变分方法。我们的方法在fastMRI数据集[18]上取得了脑部和膝部MRI的最新最优结果。3
  • [论文翻译]大规模短语密集表征学习

    开放域问答可以被重新表述为短语检索问题,无需在推理时实时处理文档 (Seo et al., 2019)。然而,当前短语检索模型严重依赖稀疏表示,性能仍落后于检索-阅读器方法。本研究首次证明仅通过短语的稠密表示学习就能在开放域问答中实现更强性能。我们提出了一种从阅读理解任务监督中学习短语表示的有效方法,并结合新型负采样策略。此外,我们还设计了查询端微调策略以支持迁移学习并减少训练与推理间的差异。在五个主流开放域问答数据集上,我们的Dense Phrases模型将短语检索性能绝对提升了15%-25%,达到最先进检索-阅读器模型的水平。由于采用纯稠密表示,该模型易于并行化,在CPU上每秒可处理超过10个问题。最后,我们直接将预索引的稠密短语表示应用于两个槽填充任务,证明了Dense Phrases作为下游任务稠密知识库的应用潜力。[1]
  • [论文翻译]通过非实验性深度学习的 0.8% 奈奎斯特计算鬼成像

    我们提出了一种基于深度学习与定制粉红噪声散斑图案的计算鬼成像框架。本工作中的深度神经网络仅通过模拟训练即可学习传感模型并提升图像重建质量。为验证方案的亚奈奎斯特采样特性,我们在不同噪声条件下对比了传统计算鬼成像、基于深度学习的白噪声与粉红噪声重建结果。实验表明:即使目标物体不在训练集中,该方案仍能在0.8%采样率下获得高质量图像,且对噪声环境具有强鲁棒性。该方法特别适用于需要低采样率、快速重建或强噪声干扰的各类应用场景。
  • [论文翻译]混合式RAG:通过语义搜索与混合查询检索器提升RAG (检索增强生成) 准确率

    摘要—检索增强生成 (Retrieval-Augmented Generation, RAG) 是一种将私有文档知识库与大语言模型 (LLM) 结合的流行方法,用于构建生成式问答 (Generative Q&A) 系统。然而,随着文档规模的扩大,RAG 的准确性面临越来越大的挑战,其中检索器 (Retriever) 通过从语料库中提取最相关的文档为 LLM 提供上下文,对整体 RAG 准确性起着至关重要的作用。在本文中,我们提出了 "混合 RAG" 方法,该方法结合了密集向量索引 (Dense Vector Index) 和稀疏编码器索引 (Sparse Encoder Index) 等语义搜索技术,并采用混合查询策略。我们的研究在 NQ 和 TREC-COVID 等信息检索 (IR) 数据集上取得了更好的检索结果,并设立了新的基准。我们进一步将这种 "混合检索器" 扩展到 RAG 系统中,在 SQUAD 等生成式问答数据集上展示了远超微调性能的优异结果。
  • [论文翻译]Draft-and-Revise: 基于上下文RQ-Transformer的高效图像生成

    虽然自回归模型在图像生成方面取得了显著成果,但其单向生成过程导致生成图像无法充分反映全局上下文。为解决这一问题,我们提出了一种基于上下文RQ-Transformer的"草图-修订"图像生成框架,在生成过程中兼顾全局上下文。作为广义VQ-VAE,RQ-VAE首先将高分辨率图像表示为离散代码堆栈序列。随机掩码序列中的部分代码堆栈后,上下文RQ-Transformer通过训练学习基于未掩码上下文填充被掩码部分。随后,该模型采用我们提出的两阶段解码策略——"草图-修订"进行图像生成,整个过程充分利用图像全局上下文。具体而言:在草图阶段,模型优先生成多样性高但质量较低的图像;在修订阶段,通过迭代优化提升图像质量,同时保持生成图像的全局一致性。实验表明,我们的方法在条件图像生成任务上达到了最先进水平,并验证了"草图-修订"解码能通过有效控制质量-多样性平衡实现卓越性能。
  • [论文翻译]ProoFVer: 基于自然逻辑定理证明的事实验证

    事实核查系统通常依赖神经网络分类器进行真实性预测,但这些模型缺乏可解释性。本文提出ProoFVer,它采用序列到序列(seq2seq)模型生成基于自然逻辑的推理证明。这些证明由声明与检索证据之间的词汇变异组成,每个变异都标有自然逻辑运算符。声明的真实性仅由这些运算符的序列决定,因此这些证明本身就是忠实解释,这使得ProoFVer在架构上具有忠实性。目前,ProoFVer在FEVER排行榜上拥有最高的标签准确率和第二高的综合得分。此外,在包含反事实实例的数据集上,其性能比次优模型高出13.21%,证明了其鲁棒性。作为解释机制,这些证明与人类推理依据的重合度优于基于注意力机制的标注,且比直接使用证据更能帮助人类正确预测模型决策[20]。
  • [论文翻译]Chain-of-Action: 基于大语言模型的可靠多模态问答

    我们提出了一种用于多模态和检索增强问答 (QA) 的行动链 (Chain-of-Action, CoA) 框架。与现有研究相比,CoA 克服了当前 QA 应用的两大挑战:(i) 与实时或领域事实不符的虚假幻觉 (hallucination);(ii) 对组合信息推理能力较弱。我们的核心贡献是一种新颖的推理-检索机制,通过系统提示和预设计动作将复杂问题分解为推理链。在方法论上,我们提出了三种可适应不同领域的"即插即用"动作,用于从异构源检索实时信息。此外,我们还提出多参考可信度评分 (multi-reference faith score, MRFS) 来验证和解决答案中的冲突。实证方面,我们通过公共基准测试和 Web3 案例研究证明了 CoA 相对于其他方法的优势。
  • [论文翻译]COCO-DR: 通过对比和分布鲁棒学习解决零样本密集检索中的分布偏移问题

    我们提出了一种新的零样本密集检索(ZeroDR)方法COCO-DR,通过应对源训练任务与目标场景之间的分布偏移来提升密集检索的泛化能力。为减轻文档差异的影响,COCO-DR采用持续对比学习(COtinuous COtrastive learning)在目标语料上继续预训练语言模型以适应目标分布。针对未见过的目标查询,COCO-DR运用隐式分布鲁棒优化(iDRO)对不同源查询簇的样本进行重新加权,从而在微调阶段提升模型对罕见查询的鲁棒性。COCO-DR在零样本检索基准BEIR上取得了卓越的平均性能。
  • [论文翻译]BM25S:通过即时稀疏评分实现数量级加速的词汇搜索

    我们推出BM25S,这是一种基于Python语言的高效BM25实现,仅依赖Numpy1和Scipy2。通过索引期间主动计算BM25分数并将其存储为稀疏矩阵,BM25S相比最流行的Python框架实现了高达\$500\mathrm{x}\$的加速。与采用高度优化的Java实现的主流商业产品相比,BM25S也取得了显著的加速效果。此外,通过采用新颖的分数偏移方法将主动评分扩展到非稀疏变体,BM25S完整复现了Kamphuis等人(2020)提出的五种BM25变体实现。代码详见https://github.com/xhluca/bm25s
  • [论文翻译]基于分层注意力异质图网络的神经抽取式摘要生成

    句子级抽取式文本摘要本质上是一种网络挖掘中的节点分类任务,需兼顾信息丰富性与表达简洁性。被抽取的句子间存在大量冗余短语,但通用监督方法难以精确建模这种现象。现有句子编码器(尤其是BERT)擅长建模源句子间关系,却无法考虑目标摘要的选句重叠问题,而句子目标标签间存在固有依赖性。本文提出HAHSum(层次化注意力异质图文本摘要的简称),该模型能有效建模词级和句级等多层次信息,并聚焦句子间的冗余依赖关系。我们的方法通过冗余感知图迭代优化句子表征,并借助消息传递机制捕捉标签依赖。在大规模基准语料(CNN/DM、NYT和NEWSROOM)上的实验表明,HAHSum实现了突破性性能,显著优于现有抽取式摘要器。
  • [论文翻译]一种用于抽取式文档摘要的分层结构化自注意力模型 (HSSAS)

    神经网络架构和训练算法的最新进展展现了表征学习(representation learning)的有效性。基于神经网络的模型能生成比传统方法更优的表征,具备自动学习句子和文档分布式表示的能力。为此,我们提出了一种新模型,解决了先前模型未能充分解决的若干问题,如内存问题和文档结构知识的融合。该模型采用分层结构的自注意力机制(self-attention)来生成句子和文档嵌入(embeddings),这种架构反映了文档的层次结构,从而获得更优的特征表示。注意力机制为摘要提取提供了额外的信息引导。新模型将摘要任务视为分类问题,通过计算句子-摘要隶属关系的概率进行预测,这些预测由信息量、显著性、新颖性和位置表示等多个特征共同决定。我们在CNN/Daily Mail和DUC 2002两个知名数据集上评估了该模型,实验结果表明我们的模型显著优于当前最先进的抽取式摘要方法。
  • [论文翻译]语言知识作为循环神经网络的记忆体

    训练循环神经网络 (RNN) 建模长程依赖关系具有挑战性。为此,我们提出利用外部语言学知识作为显式信号,指导模型选择应使用的记忆内容。具体而言,该方法通过为序列中任意距离元素添加类型化边来构建增强图,并将该图分解为有向无环子图。我们提出了一种新模型,可将此类图结构编码为循环神经网络中的显式记忆,并用于文本共指关系建模。在多个文本理解任务上的实验表明,我们的模型在CNN、bAbi和LAMBADA等基准测试中均取得了最先进性能。在bAbi问答任务中,模型仅需每个任务1000个训练样本即可解决20个任务中的15个。对学习表征的分析进一步表明,该模型能够跨文档编码细粒度实体信息。
  • [论文翻译]通用规避攻击在摘要评分中的应用

    摘要自动评分至关重要,因为它能指导摘要生成系统的开发。评分工作也很复杂,涉及流畅度、语法甚至与原文的文本蕴含关系等多方面因素。然而摘要评分尚未被视为需要研究其准确性和鲁棒性的机器学习任务。本研究将自动评分置于回归机器学习任务背景下,通过规避攻击探究其鲁棒性。攻击系统能从每个输入中预测出非摘要字符串,这些字符串在最流行的ROUGE、METEOR和BERTScore指标上与优质摘要系统获得相当分数。攻击系统在ROUGE-1和ROUGE-L上甚至"优于"最先进的摘要方法,在METEOR上排名第二。此外还观察到BERTScore存在后门:简单触发词就能获得比任何自动摘要方法更高的分数。本研究的规避攻击表明当前评分系统在系统层面鲁棒性较低。我们希望通过揭示这些攻击方式促进摘要评分系统的发展。
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理