• [论文翻译]通过层次化关系和常识知识增强场景图生成

    本研究提出了一种通过结合关系层次结构和常识知识来生成场景图的增强方法。具体而言,我们首先提出了一种利用信息层次结构的分层关系头 (hierarchical relation head) ,联合预测图像中物体对之间的关系超类别以及每个超类别下的详细关系。随后,我们实现了一个鲁棒的常识验证流程 (commonsense validation pipeline) ,利用基础模型对场景图预测系统的结果进行批判性评估,即使使用小型纯语言模型也能消除无意义的谓词。
  • [论文翻译]基于单模态与多模态对比损失的掩码视觉语言预训练在医学视觉问答中的应用

    摘要。医学视觉问答 (VQA) 是一项具有挑战性的任务,需要通过综合考虑视觉和语言信息来回答给定医学图像的临床问题。然而,由于医学 VQA 训练数据规模较小,预训练微调范式已成为提升模型泛化性能的常用解决方案。本文提出了一种新颖的自监督方法,利用医学图像描述数据集,通过结合单模态和多模态对比损失、掩码语言建模和图文匹配作为预训练目标,学习输入图像和文本的单模态及多模态特征表示。
  • [论文翻译]通用实例感知:作为对象发现与检索

    所有实例感知任务的目标都是通过类别名称、语言描述或目标标注等查询条件找到特定对象,但这一完整领域被分割成了多个独立子任务。本研究提出了新一代通用实例感知模型UNINEXT,该模型将多样化的实例感知任务重新定义为统一的对象发现与检索范式,仅需改变输入提示即可灵活感知不同类型的对象。这种统一范式具有以下优势:(1) 能够利用来自不同任务和标签词汇的海量数据联合训练通用实例级表征,这对训练数据匮乏的任务尤为有益;(2) 统一模型具有参数高效性,在同时处理多任务时可节省冗余计算。UNINEXT在10类实例级任务的20个挑战性基准测试中表现优异,涵盖经典图像级任务(目标检测与实例分割)、视觉语言任务(指代表达理解与分割)以及六类视频级目标追踪任务。代码已开源:https://github.com/MasterBin-IIAU/UNINEXT。
  • [论文翻译]多模态参考的统一时序Transformer视频目标分割

    最近,基于多模态信号(如语言和音频)的视频目标分割(VOS)在工业界和学术界引起了越来越多的关注。探索模态内的语义对齐和跨帧的视觉对应关系具有挑战性。然而,现有方法针对不同模态采用独立的网络架构,忽视了参考信号与帧间的时间交互。本文提出MUTR,一种用于参考视频目标分割的多模态统一时序Transformer。MUTR首次采用统一框架,基于DETR风格的Transformer,能够分割由文本或音频参考指定的视频目标。具体而言,我们引入两种策略来充分探索视频与多模态信号之间的时序关系。首先,在Transformer之前的低层时序聚合中,我们使多模态参考能够从连续视频帧中捕获多尺度视觉线索。这有效赋予文本或音频信号时序知识,并增强模态间的语义对齐。其次,在Transformer之后的高层时序交互中,我们对不同目标嵌入进行帧间特征通信,有助于沿视频跟踪时获得更好的目标级对应关系。
  • [论文翻译]图像作为外语:面向所有视觉与视觉-语言任务的BEIT预训练

    语言、视觉和多模态预训练的大融合正在兴起。本文提出了一种通用多模态基础模型BEIT-3,在视觉和视觉-语言任务上均实现了最先进的迁移性能。具体而言,我们从三个维度推进大融合:主干架构、预训练任务和模型扩展。我们引入了通用建模的多路Transformer (Multiway Transformers),其模块化架构同时支持深度融合和模态专用编码。基于共享主干网络,我们以统一方式对图像(Imglish)、文本(English)和图文对("平行句")进行掩码"语言"建模。实验结果表明,BEIT-3在目标检测(COCO)、语义分割(ADE20K)、图像分类(ImageNet)、视觉推理(NLVR2)、视觉问答(VQAv2)、图像描述(COCO)和跨模态检索(Flickr30K, COCO)等任务上均取得最先进性能。
  • [论文翻译]BERTweet: 面向英文推特的预训练语言模型

    语言模型BERT (Devlin等人, 2019)——即基于Transformer (Vaswani等人, 2017)的双向编码器表示——及其变体已成功帮助各类NLP任务取得新的最先进性能表现。它们的成功主要覆盖了维基百科、新闻和书籍等常见英文领域。对于生物医学或科学等特定领域,我们可以使用BERTology架构 (Beltagy等人, 2019; Lee等人, 2019; Gururangan等人, 2020) 重新训练领域专用模型。
  • [论文翻译]CLIP4STR: 基于预训练视觉语言模型的场景文本识别简单基线

    摘要—预训练的视觉语言模型 (VLM) 已成为各类下游任务实际采用的基础模型。然而,尽管VLM具备成为强大场景文本阅读器的潜力,现有场景文本识别 (STR) 方法仍倾向于使用单模态 (视觉模态) 预训练的主干网络。例如,CLIP能稳健识别图像中的规则 (水平) 和不规则 (旋转、弯曲、模糊或遮挡) 文本。基于这一优势,我们将CLIP改造为场景文本阅读器,提出CLIP4STR——一种基于CLIP图像与文本编码器的简单高效STR方法。该方法包含双编码器-解码器分支:视觉分支和跨模态分支。视觉分支基于视觉特征生成初始预测,跨模态分支则通过消除视觉特征与文本语义间的差异来优化预测结果。为充分发挥双分支能力,我们设计了双预测-优化解码方案用于推理。我们在模型规模、预训练数据和训练数据三个维度扩展CLIP4STR,在13个STR基准测试中达到最先进性能。此外,本文通过全面实验研究深化了CLIP在STR任务中适配机制的理解。本方法为未来基于VLM的STR研究建立了简单而强大的基线。
  • [论文翻译]RESDSQL: 解耦文本到SQL的模式链接与骨架解析

    近期在文本到SQL (Text-to-SQL) 领域最成功的尝试之一是预训练语言模型。由于SQL查询的结构特性,序列到序列 (seq2seq) 模型需要同时解析模式项 (即表和列) 和骨架 (即SQL关键字)。这种耦合目标增加了解析正确SQL查询的难度,尤其是当涉及大量模式项和逻辑运算符时。本文提出了一种基于排序增强的编码和骨架感知解码框架,以解耦模式链接和骨架解析。具体而言,对于seq2seq编码器-解码器模型,其编码器注入的是最相关的模式项而非整个无序集合,从而减轻SQL解析时的模式链接负担;其解码器首先生成骨架,再生成实际SQL查询,从而隐式约束SQL解析过程。我们在Spider及其三个鲁棒性变体 (Spider-DK、Spider-Syn和Spider-Realistic) 上评估了所提框架。实验结果表明,该框架展现出优异的性能和鲁棒性。代码已开源:https://github.com/RUCKBReasoning/RESDSQL。
  • [论文翻译]3D CoCa: 对比学习器实现三维场景描述

    3D字幕生成(3D captioning)旨在用自然语言描述3D场景内容,由于点云固有的稀疏性和现有方法中跨模态对齐能力较弱,该任务仍极具挑战性。为解决这些问题,我们提出3D CoCa——一种将对比式视觉语言学习与3D字幕生成无缝结合的统一框架。该方法采用冻结的CLIP视觉语言主干网络提供丰富语义先验,通过空间感知的3D场景编码器捕捉几何上下文,并利用多模态解码器生成描述性字幕。与依赖显式物体提案的两阶段方法不同,3D CoCa在共享特征空间中联合优化对比和字幕生成目标,无需外部检测器或人工提案。这种联合训练范式通过对齐3D与文本表征,实现了更强的空间推理能力和更丰富的语义基础。在ScanRefer和Nr3D基准测试上的大量实验表明,3D CoCa在CIDEr@0.5IoU指标上分别以10.2%和5.76%显著超越当前最优方法。代码将在https://github.com/AIGeeksGroup/3DCoCa发布。
  • [论文翻译]一种面向稀疏数据机器理解的并行-分层模型

    理解非结构化文本是自然语言处理的主要目标之一。阅读理解测试通过基于短文段提出问题来评估这种理解能力。本研究针对具有挑战性的MCTest基准测试开展机器阅读理解研究。由于该数据集规模有限,先前研究主要集中于设计更好的特征工程。我们采用神经网络方法处理该数据集,通过并行层级结构的简单神经网络实现。这种并行层级结构使模型能够从多种可训练视角比较文本段落、问题和答案,而非依赖人工设计的固定特征集。视角范围涵盖单词级别、句子片段到句子序列;网络仅作用于文本的词嵌入(word-embedding)表示。当采用专为有限训练数据设计的方法进行训练时,我们的并行层级模型(Parallel-Hierarchical)在MCTest上创造了新纪录:以微弱优势超越基于特征工程的方法,并显著领先先前神经网络方法(绝对优势超过15%)。
  • [论文翻译]并非所有正确答案都同等重要:为何你的蒸馏来源至关重要

    蒸馏已成为增强开源语言模型推理能力的实用且有效方法。本研究通过从三个前沿教师模型(AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1)在189万条共享查询语料上收集已验证输出,开展了大规模推理数据蒸馏实证研究。我们构建了三个平行数据集并分析其分布特征,发现AM-Thinking-v1蒸馏数据具有更显著的token长度多样性和更低困惑度。在各数据集上训练的学生模型在AIME2024、AIME2025、MATH500和Live Code Bench等推理基准测试中接受评估。基于AM的模型始终表现最佳(如AIME2024达84.3分、AIME2025达72.2分、MATH500达98.4分、Live Code Bench达65.9分),并展现出适应性输出行为——对困难任务生成更长响应,对简单任务生成更短响应。这些发现凸显了高质量已验证推理轨迹的价值。我们开源AM-Thinking-v1和Qwen3-235B-A22B蒸馏数据集以支持未来开放高性能推理导向语言模型研究,数据集已在Hugging Face平台公开。
  • [论文翻译]将视觉语言预训练

    近期跨语言跨模态工作致力于将视觉语言预训练 (Vision-Language Pre-training, VLP) 模型扩展至非英语输入并取得了显著性能。然而,这些模型仅聚焦于采用纯编码器架构的理解任务。本文提出ERNIE-UniX2——一个面向生成与理解任务的统一跨语言跨模态预训练框架。该框架基于编码器-解码器架构整合了对比学习、语言建模等多种预训练范式,试图学习跨语言与跨模态的更优联合表征。此外,ERNIE-UniX2可无缝微调用于各类生成与理解下游任务。通过在多语言纯文本和图文数据集上的预训练,ERNIE-UniX2在多模态机器翻译、多语言视觉问答等跨语言跨模态生成与理解任务中均取得了最先进 (State-of-the-Art, SOTA) 结果。
  • [论文翻译]迈向可泛化的视觉-语言机器人操作:基准与大语言模型引导的3D策略

    摘要— 将语言条件化的机器人策略泛化到新任务仍是一个重大挑战,这主要受限于缺乏合适的仿真基准测试。本文通过推出GemBench这一评估视觉-语言机器人操作策略泛化能力的新型基准测试填补了这一空白。GemBench包含七种基础动作原语和四个泛化层级,涵盖新物体摆放、刚体和铰接物体操作以及复杂长周期任务。我们在GemBench上评估了前沿方法,并提出了一种新方法。我们的3D-LOTUS方法利用丰富的三维信息进行语言条件化的动作预测。虽然3D-LOTUS在已知任务上表现出优异的效率和性能,但其在新任务上仍有不足。
  • [论文翻译]CONTROL PREFIXES 用于参数高效文本生成

    前缀调优 (Prefix-tuning) 是一种强大的轻量级技术,可将大型预训练语言模型适配到下游应用。然而,它对数据集中的所有样本使用相同的数据集级调优提示。我们扩展了这一思路,提出了一种动态方法 CONTROL PREFIXES,该方法支持融入条件性输入依赖信息,结合了提示调优 (prompt tuning) 和受控生成 (controlled generation) 的优势。该技术将属性级可学习表征嵌入预训练 Transformer 的不同层,从而引导生成文本朝特定方向发展。我们对该技术进行了系统评估,并将其应用于 GEM 基准测试中五个自然语言生成 (NLG) 数据集。
  • [论文翻译]启发式解码:带前瞻启发式的受限文本生成

    我们的方法在五项生成任务上超越了竞争基线,并在表格到文本生成(table-to-text generation)、受限机器翻译(constrained machine translation)和关键词约束生成(keyword-constrained generation)任务上取得了新的最先进(state-of-the-art)性能。在需要复杂约束满足的任务,以及少样本(few-shot)或零样本(zero-shot)设置下,改进尤为显著。
  • [论文翻译]视觉关系检测中的内部与外部语言知识蒸馏

    理解两个物体之间的视觉关系涉及识别主体、客体以及连接它们的谓词。我们利用谓词与\$\langle subj, obj\rangle\$对之间(语义和空间上)的强相关性,基于主体和客体来预测谓词。相比独立建模,联合建模这三个实体能更准确地反映它们的关系,但由于视觉关系的语义空间庞大且训练数据有限(尤其是实例稀少的长尾关系),这会增加学习难度。为此,我们利用语言统计知识来规范视觉模型学习:通过挖掘训练标注(内部知识)和公开文本(如维基百科等外部知识)
  • [论文翻译]SELF-INSTRUCT: 通过自生成指令对齐语言模型

    大型"指令调优"语言模型(即经过微调以响应指令)展现出零样本泛化到新任务的卓越能力。然而,这些模型严重依赖人工编写的指令数据,这些数据通常在数量、多样性和创造性方面有限,从而限制了调优模型的泛化能力。我们提出SELF-INSTRUCT框架,通过自举生成的方式提升预训练语言模型的指令遵循能力。我们的流程首先生成指令、输入和输出样本,然后过滤无效或相似样本,最终用于微调原始模型。将该方法应用于原始GPT3后,在SUPER-NATURAL INSTRUCTIONS基准上实现了33%的绝对性能提升,与使用私有用户数据和人工标注训练的InstrucΔGPT001性能相当。为进一步评估,我们整理了一组专家编写的新任务指令,通过人工评估表明:使用SELF-INSTRUCT微调的GPT3显著优于现有公共指令数据集,与InstrucΔGPT001仅存在5%的绝对差距。SELF-INSTRUCT提供了一种近乎无需标注的预训练语言模型指令对齐方法,我们发布了大规模合成数据集以促进未来指令调优研究。
  • [论文翻译]编辑语言模型中的事实性知识

    预训练过程中获取并存储于语言模型(LM)参数中的事实性知识,在下游任务(如问答或文本推理)中具有实用价值。然而部分知识可能被错误归纳或随时间过时。我们提出KNOWLEDGE EDITOR方法,无需昂贵重训练或微调即可修正此类"错误"或意外预测。该方法不仅计算高效,还无需修改LM预训练流程(例如采用元学习)。我们通过约束优化训练超网络来修改特定事实而不影响其他知识,训练后的超网络在测试时用于预测权重更新。实验证明KNOWLEDGE EDITOR在两种经典架构和知识密集型任务中表现优异:i)用于事实核查的微调BERT模型,ii)用于问答的序列到序列BART模型。该方法能确保查询表述变化时,其释义的预测结果保持同步改变。研究表明训练阶段利用(如自动生成的)释义可进一步强化该特性。值得注意的是,超网络可作为"探针"揭示操纵事实知识需修改的组件,分析表明更新往往集中于少量参数子集。[20]
  • [论文翻译]增强型语言模型:综述

    本综述回顾了语言模型 (LM) 在推理能力和工具使用能力方面的增强研究。前者被定义为将潜在复杂任务分解为更简单的子任务,后者则涉及调用外部模块(如代码解释器)。语言模型可通过启发式方法单独或组合利用这些增强能力,或通过示范学习掌握相关技能。尽管仍遵循缺失token预测的基本目标,此类增强型语言模型能够利用各种可能非参数化的外部模块来扩展其上下文处理能力,从而脱离纯粹的语言建模范式。因此我们将其称为增强型语言模型 (ALM)。缺失token预测目标使ALMs能够学习推理、使用工具甚至执行动作,同时仍能完成标准自然语言任务,并在多个基准测试中超越大多数常规语言模型。本文在综述ALMs最新进展后指出,这一新研究方向有望解决传统语言模型在可解释性、一致性和可扩展性等方面的常见局限。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理