• [论文翻译]请引用该论文为:F. Haghighi, M. R. Hossein za deh Taher, Z. Zhou, M. B. Gotway, 和 J. Liang. 《通过自我发现、自我分类和自我恢复学习语义增强表示》。国际医学图像计算与计算机辅助干预会议 (MICCAI), 2020。

    摘要:医学图像天然蕴含丰富的人体解剖语义信息,通过大量重复出现的解剖模式得以体现,这为深度语义表征学习提供了独特潜力,能够为不同医疗应用训练出语义理解能力更强的模型。然而如何有效利用医学图像中这种强大且自由的语义信息进行自监督学习,目前仍存在大量探索空间。为此,我们训练深度模型通过自主发现、自主分类和自主还原医学图像底层解剖结构,学习语义增强的视觉表征,最终获得名为Semantic Genesis的通用预训练3D模型。我们在六项不同目标任务(涵盖CT、MRI和X射线等多种医学模态的分类与分割)上,对所有公开可用的预训练模型(包括自监督和全监督方法)进行了全面测试。大量实验表明,Semantic Genesis显著优于所有3D对比模型以及基于ImageNet的传统2D迁移学习方法。这一优异表现源于我们新颖的自监督学习框架,该框架促使深度模型从医学图像中固有解剖结构所产生的大量解剖模式中学习具有说服力的语义表征。代码及预训练模型详见https://github.com/JLiangLab/SemanticGenesis。
  • [论文翻译]双向ConvLSTM U-Net与密集连接卷积

    近年来,基于深度学习的网络在医学图像分割领域取得了最先进的性能。在现有网络中,U-Net已成功应用于医学图像分割。本文提出了一种U-Net的扩展架构——双向ConvLSTM密集连接卷积U-Net (BCDU-Net) ,该模型综合运用了U-Net、双向ConvLSTM (BConvLSTM) 和密集卷积机制的优势。与U-Net跳跃连接中简单的拼接操作不同,我们采用BConvLSTM以非线性方式融合来自编码路径的特征图与解码上采样层的特征图。为增强特征传播并促进特征复用,我们在编码路径的最后一个卷积层采用密集连接卷积。此外,通过引入批归一化 (BN) 可加速网络收敛速度。该模型在视网膜血管分割、皮肤病变分割和肺结节分割三个数据集上均达到当前最优性能。
  • [论文翻译]Zalan Fabian 美国南加州大学电气与计算机工程系 洛杉矶 zfabian@usc.edu

    在加速MRI重建中,患者解剖结构需从一组欠采样且含噪声的测量数据中恢复。深度学习方法已被证实在解决这一不适定逆问题上卓有成效,并能生成极高质量的重建结果。然而,当前架构严重依赖卷积运算——这种与内容无关的操作难以建模图像中的长程依赖关系。近年来,作为现代自然语言处理核心的Transformer模型,已在众多视觉任务中展现出强大的构建潜力。这类模型将输入图像分割为不重叠的图块,将其嵌入低维token,并采用不受卷积架构固有缺陷限制的自注意力机制。但Transformer存在极高计算内存开销的问题:1) 输入图像分辨率较高时;2) 需将图像分割为大量图块以保留精细细节时——这两种情况在MRI重建等底层视觉问题中普遍存在且会产生叠加效应。为应对这些挑战,我们提出HUMUS-Net:一种在展开式多尺度网络中融合卷积的隐式偏置优势与Transformer模块能力的混合架构。该网络通过卷积块提取高分辨率特征,并借助新型基于Transformer的多尺度特征提取器优化低分辨率特征,最终将多层级特征合成为高分辨率重建输出。我们的网络在最大公开MRI数据集fastMRI上创造了新性能标杆,并在另外两个主流MRI数据集上验证了其优越性,同时通过细粒度消融实验证实了设计有效性。
  • [论文翻译]用于加速MRI重建的端到端变分网络

    摘要。磁共振成像(MRI)的缓慢采集速度催生了两类互补方法:同步采集多视角解剖结构(并行成像)和采集少于传统信号处理方法所需样本量(压缩感知)。虽然这些方法的结合有望实现更快的扫描速度,但从这种欠采样的多线圈数据中重建图像仍是一个悬而未决的问题。本文提出一种新方法,通过端到端学习扩展了先前提出的变分方法。我们的方法在fastMRI数据集[18]上取得了脑部和膝部MRI的最新最优结果。3
  • [论文翻译]大规模短语密集表征学习

    开放域问答可以被重新表述为短语检索问题,无需在推理时实时处理文档 (Seo et al., 2019)。然而,当前短语检索模型严重依赖稀疏表示,性能仍落后于检索-阅读器方法。本研究首次证明仅通过短语的稠密表示学习就能在开放域问答中实现更强性能。我们提出了一种从阅读理解任务监督中学习短语表示的有效方法,并结合新型负采样策略。此外,我们还设计了查询端微调策略以支持迁移学习并减少训练与推理间的差异。在五个主流开放域问答数据集上,我们的Dense Phrases模型将短语检索性能绝对提升了15%-25%,达到最先进检索-阅读器模型的水平。由于采用纯稠密表示,该模型易于并行化,在CPU上每秒可处理超过10个问题。最后,我们直接将预索引的稠密短语表示应用于两个槽填充任务,证明了Dense Phrases作为下游任务稠密知识库的应用潜力。[1]
  • [论文翻译]混合式RAG:通过语义搜索与混合查询检索器提升RAG (检索增强生成) 准确率

    摘要—检索增强生成 (Retrieval-Augmented Generation, RAG) 是一种将私有文档知识库与大语言模型 (LLM) 结合的流行方法,用于构建生成式问答 (Generative Q&A) 系统。然而,随着文档规模的扩大,RAG 的准确性面临越来越大的挑战,其中检索器 (Retriever) 通过从语料库中提取最相关的文档为 LLM 提供上下文,对整体 RAG 准确性起着至关重要的作用。在本文中,我们提出了 "混合 RAG" 方法,该方法结合了密集向量索引 (Dense Vector Index) 和稀疏编码器索引 (Sparse Encoder Index) 等语义搜索技术,并采用混合查询策略。我们的研究在 NQ 和 TREC-COVID 等信息检索 (IR) 数据集上取得了更好的检索结果,并设立了新的基准。我们进一步将这种 "混合检索器" 扩展到 RAG 系统中,在 SQUAD 等生成式问答数据集上展示了远超微调性能的优异结果。
  • [论文翻译]Draft-and-Revise: 基于上下文RQ-Transformer的高效图像生成

    虽然自回归模型在图像生成方面取得了显著成果,但其单向生成过程导致生成图像无法充分反映全局上下文。为解决这一问题,我们提出了一种基于上下文RQ-Transformer的"草图-修订"图像生成框架,在生成过程中兼顾全局上下文。作为广义VQ-VAE,RQ-VAE首先将高分辨率图像表示为离散代码堆栈序列。随机掩码序列中的部分代码堆栈后,上下文RQ-Transformer通过训练学习基于未掩码上下文填充被掩码部分。随后,该模型采用我们提出的两阶段解码策略——"草图-修订"进行图像生成,整个过程充分利用图像全局上下文。具体而言:在草图阶段,模型优先生成多样性高但质量较低的图像;在修订阶段,通过迭代优化提升图像质量,同时保持生成图像的全局一致性。实验表明,我们的方法在条件图像生成任务上达到了最先进水平,并验证了"草图-修订"解码能通过有效控制质量-多样性平衡实现卓越性能。
  • [论文翻译]ProoFVer: 基于自然逻辑定理证明的事实验证

    事实核查系统通常依赖神经网络分类器进行真实性预测,但这些模型缺乏可解释性。本文提出ProoFVer,它采用序列到序列(seq2seq)模型生成基于自然逻辑的推理证明。这些证明由声明与检索证据之间的词汇变异组成,每个变异都标有自然逻辑运算符。声明的真实性仅由这些运算符的序列决定,因此这些证明本身就是忠实解释,这使得ProoFVer在架构上具有忠实性。目前,ProoFVer在FEVER排行榜上拥有最高的标签准确率和第二高的综合得分。此外,在包含反事实实例的数据集上,其性能比次优模型高出13.21%,证明了其鲁棒性。作为解释机制,这些证明与人类推理依据的重合度优于基于注意力机制的标注,且比直接使用证据更能帮助人类正确预测模型决策[20]。
  • [论文翻译]BM25S:通过即时稀疏评分实现数量级加速的词汇搜索

    我们推出BM25S,这是一种基于Python语言的高效BM25实现,仅依赖Numpy1和Scipy2。通过索引期间主动计算BM25分数并将其存储为稀疏矩阵,BM25S相比最流行的Python框架实现了高达\$500\mathrm{x}\$的加速。与采用高度优化的Java实现的主流商业产品相比,BM25S也取得了显著的加速效果。此外,通过采用新颖的分数偏移方法将主动评分扩展到非稀疏变体,BM25S完整复现了Kamphuis等人(2020)提出的五种BM25变体实现。代码详见https://github.com/xhluca/bm25s
  • [论文翻译]基于分层注意力异质图网络的神经抽取式摘要生成

    句子级抽取式文本摘要本质上是一种网络挖掘中的节点分类任务,需兼顾信息丰富性与表达简洁性。被抽取的句子间存在大量冗余短语,但通用监督方法难以精确建模这种现象。现有句子编码器(尤其是BERT)擅长建模源句子间关系,却无法考虑目标摘要的选句重叠问题,而句子目标标签间存在固有依赖性。本文提出HAHSum(层次化注意力异质图文本摘要的简称),该模型能有效建模词级和句级等多层次信息,并聚焦句子间的冗余依赖关系。我们的方法通过冗余感知图迭代优化句子表征,并借助消息传递机制捕捉标签依赖。在大规模基准语料(CNN/DM、NYT和NEWSROOM)上的实验表明,HAHSum实现了突破性性能,显著优于现有抽取式摘要器。
  • [论文翻译]一种用于抽取式文档摘要的分层结构化自注意力模型 (HSSAS)

    神经网络架构和训练算法的最新进展展现了表征学习(representation learning)的有效性。基于神经网络的模型能生成比传统方法更优的表征,具备自动学习句子和文档分布式表示的能力。为此,我们提出了一种新模型,解决了先前模型未能充分解决的若干问题,如内存问题和文档结构知识的融合。该模型采用分层结构的自注意力机制(self-attention)来生成句子和文档嵌入(embeddings),这种架构反映了文档的层次结构,从而获得更优的特征表示。注意力机制为摘要提取提供了额外的信息引导。新模型将摘要任务视为分类问题,通过计算句子-摘要隶属关系的概率进行预测,这些预测由信息量、显著性、新颖性和位置表示等多个特征共同决定。我们在CNN/Daily Mail和DUC 2002两个知名数据集上评估了该模型,实验结果表明我们的模型显著优于当前最先进的抽取式摘要方法。
  • [论文翻译]语言知识作为循环神经网络的记忆体

    训练循环神经网络 (RNN) 建模长程依赖关系具有挑战性。为此,我们提出利用外部语言学知识作为显式信号,指导模型选择应使用的记忆内容。具体而言,该方法通过为序列中任意距离元素添加类型化边来构建增强图,并将该图分解为有向无环子图。我们提出了一种新模型,可将此类图结构编码为循环神经网络中的显式记忆,并用于文本共指关系建模。在多个文本理解任务上的实验表明,我们的模型在CNN、bAbi和LAMBADA等基准测试中均取得了最先进性能。在bAbi问答任务中,模型仅需每个任务1000个训练样本即可解决20个任务中的15个。对学习表征的分析进一步表明,该模型能够跨文档编码细粒度实体信息。
  • [论文翻译]通用规避攻击在摘要评分中的应用

    摘要自动评分至关重要,因为它能指导摘要生成系统的开发。评分工作也很复杂,涉及流畅度、语法甚至与原文的文本蕴含关系等多方面因素。然而摘要评分尚未被视为需要研究其准确性和鲁棒性的机器学习任务。本研究将自动评分置于回归机器学习任务背景下,通过规避攻击探究其鲁棒性。攻击系统能从每个输入中预测出非摘要字符串,这些字符串在最流行的ROUGE、METEOR和BERTScore指标上与优质摘要系统获得相当分数。攻击系统在ROUGE-1和ROUGE-L上甚至"优于"最先进的摘要方法,在METEOR上排名第二。此外还观察到BERTScore存在后门:简单触发词就能获得比任何自动摘要方法更高的分数。本研究的规避攻击表明当前评分系统在系统层面鲁棒性较低。我们希望通过揭示这些攻击方式促进摘要评分系统的发展。
  • [论文翻译]混合检索增强生成 (Blended RAG):通过语义搜索与混合查询检索器提升 RAG (Retriever-Augmented Generation) 准确率

    摘要—检索增强生成 (Retrieval-Augmented Generation,RAG) 是一种将私有文档知识库与大语言模型 (LLM) 结合的流行方法,用于构建生成式问答 (Generative Q&A) 系统。然而,随着文档库规模扩大,RAG 的准确性面临越来越大的挑战,其中检索器 (Retriever) 通过从语料库中提取最相关文档为 LLM 提供上下文,对整体 RAG 准确性起着关键作用。本文提出"混合 RAG"方法,结合稠密向量索引 (Dense Vector indexes)、稀疏编码器索引 (Sparse Encoder indexes) 等语义搜索技术与混合查询策略。我们的研究在 NQ 和 TREC-COVID 等信息检索 (IR) 数据集上取得了更好的检索效果,并创造了新基准。我们进一步将这种"混合检索器"扩展到 RAG 系统,在 SQUAD 等生成式问答数据集上展现出显著优于微调性能的结果。
  • [论文翻译]大规模短语密集表征学习

    开放域问答可以重新表述为短语检索问题,无需在推理时按需处理文档 (Seo et al., 2019) 。然而当前短语检索模型严重依赖稀疏表示,性能仍逊于检索器-阅读器方法。本研究首次证明仅学习短语的密集表示就能在开放域问答中实现更强性能。我们提出一种通过阅读理解任务监督学习短语表征的有效方法,结合新型负采样策略,并设计了查询端微调方案以支持迁移学习并减少训练与推理的差异。在五个主流开放域问答数据集上,我们的Dense Phrases模型将短语检索性能绝对值提升15%-25%,达到当前最优检索器-阅读器模型水平。得益于纯密集表示特性,该模型易于并行化,在CPU上每秒可处理超过10个问题。最后,我们直接将预索引的密集短语表征应用于两个槽填充任务,验证了Dense Phrases作为下游任务密集知识库的应用潜力。[20]
  • [论文翻译]密集视频事件问答

    多模态大语言模型 (MLLM) 在单事件视频问答任务中展现出卓越性能。本文提出密集事件视频问答这一新任务,要求对长视频中的密集事件问题进行回答与定位,从而挑战 MLLM 对长时间跨度的多事件进行忠实理解和推理的能力。为此,我们构建了 DeVE-QA 数据集——包含 10.6K 个长视频中 26K 个事件的 78K 个问题。基准测试表明,现有擅长单事件问答的 MLLM 在 DeVE-QA 上表现欠佳。为改进性能,我们提出无需训练的 DeVi 框架,其创新性体现在:1) 层次化描述模块;2) 时序事件记忆模块;3) 自一致性校验模块,分别用于长视频中的密集事件检测、上下文关联记忆以及问答定位。大量实验证明,DeVi 在密集事件问答及视频片段定位方面表现优异,相较现有 MLLM 在 DeVE-QA 和 NExT-GQA 的 G(round)QA 准确率分别显著提升 4.1% 和 3.7%。我们的数据与代码将开源发布。
  • [论文翻译]LinVT: 赋能图像级大语言模型理解视频

    大语言模型 (LLM) 已被广泛应用于各种任务,这促使我们开发一款基于LLM的视频助手。我们并未选择从头训练,而是提出一个模块,可将任意训练成熟的图像大语言模型转化为视频大语言模型(需经过视频数据训练)。为更好地适配图像大语言模型处理视频,我们引入两项设计原则:通过线性变换保持原始视觉-语言对齐能力,以及从冗余视频内容中提炼代表性信息。基于这些原则,我们提出即插即用的线性视频分词器 (LinVT),使现有图像大语言模型具备视频理解能力。我们在Aquila、Blip-3、InternVL2、Mipha、Molmo和Qwen2-VL六个前沿视觉大语言模型上测试LinVT,证明了其高度兼容性。基于LinVT的大语言模型在多个视频基准测试中达到最先进性能,展现了LinVT在多模态视频理解中的有效性。代码已开源:https://github.com/gls0425/LinVT。
  • [论文翻译]ByT5: 迈向基于字节到字节预训练模型的无Token未来

    Most widely-used pre-trained language models operate on sequences of tokens corre- sponding to word or subword units. By comparison, token-free models that operate directly on raw text (bytes or characters) have many benefits: they can process text in any language out of the box, they are more robust to noise, and they minimize technical debt by removing complex and error-prone text preprocessing pipelines.
  • [论文翻译]Piece of Table: A Divide-and-Conquer Approach for Selecting Sub-Tables in Table Question Answering

    Applying language models (LMs) to tables is challenging due to the inherent structural differences between twodimensional tables and one-dimensional text for which the LMs were originally designed. Furthermore, when applying linearized tables to LMs, the maximum token lengths often imposed in self-attention calculations make it difficult to comprehensively understand the context spread across large tables. To address these challenges, we present PieTa (Piece of Table), a new framework for sub-table-based question answering \$^{\prime}Q A)\$ . PieTa operates through an iterative process of dividing tables into smaller windows, using LMs to select relevant cells within each window, and merging these cells into a sub-table. This multi-resolution approach captures dependencies across multiple rows and columns while avoiding the limitations caused by long context inputs. Instantiated as a simple iterative sub-table union algorithm, PieTa demonstrates improved performance over previous sub-table-based QA approaches.
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理