• [论文翻译]CoCa: 对比式字幕生成器作为图文基础模型

    探索大规模预训练基础模型在计算机视觉领域具有重要意义,因为这些模型能够快速迁移至多种下游任务。本文提出对比式描述生成器(CoCa),采用极简设计联合预训练图像-文本编码器-解码器基础模型,通过对比损失和描述生成损失同时涵盖CLIP等对比方法与SimVLM等生成方法的模型能力。与所有解码器层均关注编码器输出的标准编码器-解码器Transformer不同,CoCa在前半部分解码器层省略交叉注意力以编码单模态文本表示,后半部分级联的解码器层则通过交叉注意力处理图像编码器的多模态图像-文本表示。
  • [论文翻译]基于单模态与多模态对比损失的掩码视觉语言预训练在医学视觉问答中的应用

    摘要。医学视觉问答 (VQA) 是一项具有挑战性的任务,需要通过综合考虑视觉和语言信息来回答给定医学图像的临床问题。然而,由于医学 VQA 训练数据规模较小,预训练微调范式已成为提升模型泛化性能的常用解决方案。本文提出了一种新颖的自监督方法,利用医学图像描述数据集,通过结合单模态和多模态对比损失、掩码语言建模和图文匹配作为预训练目标,学习输入图像和文本的单模态及多模态特征表示。
  • [论文翻译]多模态差分网络在视觉问题生成中的应用

    从图像生成自然问题是一项需要结合视觉与语言模态来学习多模态表征的语义任务。图像可能包含与问题生成相关的多重视觉和语言上下文,例如场景、描述文字和标签。本文提出利用示例样本获取相关上下文,通过多模态差分网络生成自然且引人入胜的问题。人工评估表明,生成的问题与自然问题具有显著相似性。此外,定量指标(BLEU、METEOR、ROUGE和CIDEr)显示,该方法较现有最优基准有显著提升。
  • [论文翻译]通用实例感知:作为对象发现与检索

    所有实例感知任务的目标都是通过类别名称、语言描述或目标标注等查询条件找到特定对象,但这一完整领域被分割成了多个独立子任务。本研究提出了新一代通用实例感知模型UNINEXT,该模型将多样化的实例感知任务重新定义为统一的对象发现与检索范式,仅需改变输入提示即可灵活感知不同类型的对象。这种统一范式具有以下优势:(1) 能够利用来自不同任务和标签词汇的海量数据联合训练通用实例级表征,这对训练数据匮乏的任务尤为有益;(2) 统一模型具有参数高效性,在同时处理多任务时可节省冗余计算。UNINEXT在10类实例级任务的20个挑战性基准测试中表现优异,涵盖经典图像级任务(目标检测与实例分割)、视觉语言任务(指代表达理解与分割)以及六类视频级目标追踪任务。代码已开源:https://github.com/MasterBin-IIAU/UNINEXT。
  • [论文翻译]VISUALBERT: 一种简单高效的视觉与语言基线模型

    结合视觉与自然语言的任务为评估视觉系统的推理能力提供了丰富的测试平台。这些任务不仅限于识别图像中存在哪些物体 (Russakovsky et al., 2015; Lin et al., 2014),还包括图像描述生成 (Chen et al., 2015)、视觉问答 (Antol et al., 2015) 和视觉推理 (Suhr et al., 2019; Zellers et al., 2019) 等,它们挑战系统去理解图像中广泛的细节语义,包括物体、属性、部件、空间关系、动作与意图,以及所有这些概念如何通过自然语言进行指代和关联。
  • [论文翻译]MAST:基于三模态分层注意力的多模态抽象摘要生成

    本文提出MAST,一种新型多模态抽象文本摘要模型,该模型综合利用视频中文本、音频和视觉三种模态的信息。此前多模态抽象文本摘要研究仅利用文本和视觉模态信息。我们探究了从音频模态提取信息的价值与挑战,并提出基于层级注意力机制的序列到序列三模态模型,通过增强模型对文本模态的关注度来解决这些挑战。在How2多模态语言理解数据集上,MAST以内容F1值2.51分和Rouge-L值1.00分的优势超越当前最佳(视频-文本)模型。
  • [论文翻译]CLIP4STR: 基于预训练视觉语言模型的场景文本识别简单基线

    摘要—预训练的视觉语言模型 (VLM) 已成为各类下游任务实际采用的基础模型。然而,尽管VLM具备成为强大场景文本阅读器的潜力,现有场景文本识别 (STR) 方法仍倾向于使用单模态 (视觉模态) 预训练的主干网络。例如,CLIP能稳健识别图像中的规则 (水平) 和不规则 (旋转、弯曲、模糊或遮挡) 文本。基于这一优势,我们将CLIP改造为场景文本阅读器,提出CLIP4STR——一种基于CLIP图像与文本编码器的简单高效STR方法。该方法包含双编码器-解码器分支:视觉分支和跨模态分支。视觉分支基于视觉特征生成初始预测,跨模态分支则通过消除视觉特征与文本语义间的差异来优化预测结果。为充分发挥双分支能力,我们设计了双预测-优化解码方案用于推理。我们在模型规模、预训练数据和训练数据三个维度扩展CLIP4STR,在13个STR基准测试中达到最先进性能。此外,本文通过全面实验研究深化了CLIP在STR任务中适配机制的理解。本方法为未来基于VLM的STR研究建立了简单而强大的基线。
  • [论文翻译]Maverick: 高效精准的指代消解技术挑战近期趋势

    大型自回归生成模型已成为在多项自然语言处理任务中实现最高性能的基石。然而,追求卓越结果的冲动有时会导致未经充分实验就过早取代精心设计的任务特定方法。共指消解任务也不例外;所有最新的最先进解决方案都采用大型生成式自回归模型,其性能优于基于编码器的判别系统。在这项工作中,我们通过引入Maverick对这一趋势提出挑战——这是一个精心设计却简洁的流程,能在学术预算限制下运行最先进的共指消解系统,仅用5亿参数就超越高达130亿参数的模型。
  • [论文翻译]12合1:多任务视觉与语言表征学习

    视觉与语言研究大多聚焦于少量但多样化的独立任务及其配套数据集,这些任务通常被孤立研究。然而,成功完成这些任务所需的视觉基础语言理解技能存在显著重叠。本研究通过构建大规模多任务训练体系,探索视觉与语言任务间的关联性。我们的方法最终在四大类任务(视觉问答、基于描述的图像检索、指代表达式定位和多模态验证)的12个数据集上实现了单一模型统一。与独立训练的单任务模型相比,该模型将参数量从约30亿缩减至2.7亿,同时平均任务性能提升2.05分。我们利用该多任务框架深入分析联合训练多样化任务的效果,并证明基于统一多任务模型微调特定任务模型可带来额外性能提升,达到或超越当前最优水平。
  • [论文翻译]3D CoCa: 对比学习器实现三维场景描述

    3D字幕生成(3D captioning)旨在用自然语言描述3D场景内容,由于点云固有的稀疏性和现有方法中跨模态对齐能力较弱,该任务仍极具挑战性。为解决这些问题,我们提出3D CoCa——一种将对比式视觉语言学习与3D字幕生成无缝结合的统一框架。该方法采用冻结的CLIP视觉语言主干网络提供丰富语义先验,通过空间感知的3D场景编码器捕捉几何上下文,并利用多模态解码器生成描述性字幕。与依赖显式物体提案的两阶段方法不同,3D CoCa在共享特征空间中联合优化对比和字幕生成目标,无需外部检测器或人工提案。这种联合训练范式通过对齐3D与文本表征,实现了更强的空间推理能力和更丰富的语义基础。在ScanRefer和Nr3D基准测试上的大量实验表明,3D CoCa在CIDEr@0.5IoU指标上分别以10.2%和5.76%显著超越当前最优方法。代码将在https://github.com/AIGeeksGroup/3DCoCa发布。
  • [论文翻译]突破Transformer模型限制:任务特定上下文归因承诺无需微调预训练大语言模型即可提升泛化能力

    在自然语言处理(NLP)分类任务中,对预训练大语言模型(LLM)进行特定数据集的微调是常用策略。然而,这种方法通常会导致模型泛化能力下降。本文提出一个既能保持泛化能力,又能通过任务特定上下文归因提升下游任务性能的框架。我们证明:使用任务特定概念算子对Transformer模型的文本表示进行线性变换,可将其投影到潜在概念空间(本文称为上下文归因)。该特定概念算子通过新型损失函数在监督学习阶段进行优化。实验表明,针对每个任务目标的文本表示上下文归因能提升判别函数能力,从而改善分类任务性能。在HateXplain、IMDB影评和社交媒体归因三个数据集上的实验结果显示,所提模型获得了更优的准确率和泛化能力。具体而言:
  • [论文翻译]一种面向稀疏数据机器理解的并行-分层模型

    理解非结构化文本是自然语言处理的主要目标之一。阅读理解测试通过基于短文段提出问题来评估这种理解能力。本研究针对具有挑战性的MCTest基准测试开展机器阅读理解研究。由于该数据集规模有限,先前研究主要集中于设计更好的特征工程。我们采用神经网络方法处理该数据集,通过并行层级结构的简单神经网络实现。这种并行层级结构使模型能够从多种可训练视角比较文本段落、问题和答案,而非依赖人工设计的固定特征集。视角范围涵盖单词级别、句子片段到句子序列;网络仅作用于文本的词嵌入(word-embedding)表示。当采用专为有限训练数据设计的方法进行训练时,我们的并行层级模型(Parallel-Hierarchical)在MCTest上创造了新纪录:以微弱优势超越基于特征工程的方法,并显著领先先前神经网络方法(绝对优势超过15%)。
  • [论文翻译]NLP 模型真的能解决简单数学应用题吗?

    设计用于解决数学应用题 (MWP) 的自然语言处理 (NLP) 求解器问题一直保持着持续的研究活动,并在测试准确率上取得了稳步提升。由于现有求解器在针对包含单未知数算术应用题的小学水平 MWP 基准数据集上表现出色,这类问题常被视为"已解决",研究重点随之转向更复杂的 MWP。本文聚焦于四年级及以下英语数学应用题,通过有力证据表明:现有 MWP 求解器依赖浅层启发式方法在基准数据集上获得高准确率。具体而言,我们发现即使不获取 MWP 题干信息的求解器仍能解决大部分题目;同样,将 MWP 视为词袋 (bag-of-words) 处理的模型也能达到惊人的高准确率。此外,我们通过从现有数据集采样并施加精心设计的变体,构建了挑战性数据集 SVAMP。当前最先进模型在该数据集上的最佳表现显著下降,这表明即便对于最简单的 MWP 仍存在巨大改进空间。
  • [论文翻译]将视觉语言预训练

    近期跨语言跨模态工作致力于将视觉语言预训练 (Vision-Language Pre-training, VLP) 模型扩展至非英语输入并取得了显著性能。然而,这些模型仅聚焦于采用纯编码器架构的理解任务。本文提出ERNIE-UniX2——一个面向生成与理解任务的统一跨语言跨模态预训练框架。该框架基于编码器-解码器架构整合了对比学习、语言建模等多种预训练范式,试图学习跨语言与跨模态的更优联合表征。此外,ERNIE-UniX2可无缝微调用于各类生成与理解下游任务。通过在多语言纯文本和图文数据集上的预训练,ERNIE-UniX2在多模态机器翻译、多语言视觉问答等跨语言跨模态生成与理解任务中均取得了最先进 (State-of-the-Art, SOTA) 结果。
  • [论文翻译]实践中的大语言模型(Large Language Model)力量:关于ChatGPT及其他模型的综述

    本文为从业者和终端用户在大语言模型(LLM)下游自然语言处理(NLP)任务中的应用提供了全面实用的指南。我们从模型、数据和下游任务三个维度,深入探讨了大语言模型的使用策略与洞见。首先,我们对当前GPT和BERT架构的大语言模型进行了介绍与简要总结。随后,我们分析了预训练数据、训练数据和测试数据的影响机制。最重要的是,我们针对各类自然语言处理任务(如知识密集型任务、传统自然语言理解任务、自然语言生成任务、涌现能力等)详细论证了大语言模型的适用场景与局限边界,通过具体案例展示其实际应用效果与约束条件。我们还着力解析了数据要素的重要性,以及不同NLP任务面临的特殊挑战。此外,我们探究了虚假偏差对大语言模型的影响,并深入讨论了效率、成本和延迟等关键部署因素。本指南旨在为研究者和实践者提供有价值的洞见与最佳实践,促进大语言模型在各类NLP任务中的成功落地。最新整理的实用资源清单持续更新于:https://github.com/Mooler0410/LLMsPracticalGuide。
  • [论文翻译]TRANSFORMER-PATCHER: 一错一神经元

    基于Transformer的大型预训练语言模型(PLM)主导了几乎所有自然语言处理(NLP)任务。然而,它们仍会不时犯错。对于部署在工业环境中的模型而言,快速稳健地修复这些错误对提升用户体验至关重要。先前研究将此类问题形式化为模型编辑(ME),主要关注单个错误的修正。但单错误修正场景并不能准确抽象现实挑战。在AI服务部署中,错误会不断涌现,若未及时纠正,相同错误可能反复出现。因此更优解决方案是持续即时修正错误。为此,我们将现有ME扩展为序列化模型编辑(SME),以助力开发更具实用性的编辑方法。研究表明,当前多数ME方法在此场景下表现欠佳。我们继而提出Transformer-Patcher——通过仅在末层前馈网络中添加并训练少量神经元,即可改变基于Transformer模型行为的新型编辑器。分类与生成任务的实验结果表明,Transformer-Patcher能连续修正上千个错误(可靠性),并泛化至等效输入(通用性),同时保持模型对无关输入的准确性(局部性)。该方法优于先前基于微调和超网络的方法,在序列化模型编辑(SME)中实现了最先进性能。代码详见https://github.com/ZeroYuHuang/Transformer-Patcher。
  • [论文翻译]大语言模型与人类对齐:综述

    大语言模型 (LLMs) 经过海量文本训练后,已成为解决各类自然语言处理 (NLP) 任务的主流方案。尽管表现卓越,这些模型仍存在误解人类指令、生成潜在偏见内容或事实错误 (幻觉) 信息等局限性。因此,如何让大语言模型符合人类期望已成为学界研究热点。本综述系统梳理了这些对齐技术,涵盖以下维度:(1) 数据收集:高效获取高质量指令的方法,包括利用 NLP 基准数据集、人工标注以及调用强大 LLMs;(2) 训练方法:详细分析主流对齐训练方案,涵盖监督微调、在线/离线人类偏好训练以及参数高效训练机制;(3) 模型评估:多维度评估对齐效果的方法体系。最后我们提炼核心发现,并指明该领域未来研究方向。本综述为致力于优化大语言模型人类对齐的研究者提供了系统参考。相关 GitHub 资源库持续更新最新论文:https://github.com/GaryYufei/AlignLLMHumanSurvey。
  • [论文翻译]大语言模型 (Large Language Model) 能否替代人类评估?

    人类评估对于判断机器学习模型生成或人工撰写文本的质量而言不可或缺且不可避免。然而,人类评估难以复现,其质量也极不稳定,这阻碍了不同自然语言处理(NLP)模型与算法间的公平比较。近期研究表明,大语言模型(LLM)仅凭任务指令就能在未见任务上展现卓越性能。本文探讨是否可将LLM的这种能力作为人类评估的替代方案:我们向LLM提供与人类评估完全相同的指令、待评估样本及问题,要求其生成对应回答——这种评估方式称为LLM评估。我们分别在开放式故事生成和对抗攻击两个NLP任务中,同步采用人类评估与LLM评估进行文本质量判定。实验表明,LLM评估结果与专家人类评估具有一致性:人类专家评分较高的文本同样获得LLM更高评价。我们还发现,LLM评估结果不受任务指令格式差异及答案生成采样算法的影响。本研究首次揭示了利用LLM评估文本质量的潜力,并讨论了LLM评估的局限性与伦理考量。
  • [论文翻译]校准预训练语言模型中的事实性知识

    已有研究证明,预训练语言模型(PLMs)能够存储事实性知识。但我们发现PLMs存储的事实并不总是正确的,这促使我们探索一个根本性问题:如何在不从头训练的情况下校准PLMs中的事实性知识?本文提出了一种轻量级解决方案CALINET。具体而言,我们首先通过正确事实与虚假事实的对比分数检测PLMs是否掌握了正确事实;若未掌握,则采用轻量化方法针对特定事实文本添加并适配新参数。知识探测任务实验验证了该校准方法的有效性和高效性。通过闭卷问答测试,我们发现校准后的PLM经过微调后具备知识泛化能力。除性能评估外,我们还对知识校准机制进行了可视化分析与探究。代码与数据详见https://github.com/dqxiu/CaliNet。
  • [论文翻译]用自然语言补丁修复模型缺陷

    当前解决NLP(自然语言处理)模型中系统性问题的方案(例如正则表达式补丁、基于更多数据的微调)要么脆弱易失效,要么需要高强度人工且容易走捷径。相比之下,人类通常通过自然语言互相提供修正建议。受此启发,我们探索自然语言补丁——这种声明式语句允许开发者在合适的抽象层级提供纠正反馈,既能覆盖模型判断( "若评论给出2星评级,则情感为负面" ),也能补充模型可能缺失的信息( "若某物被描述为'the bomb',则表示它很棒" )。我们将判断补丁是否适用的任务与整合补丁信息的任务分开建模,并证明仅需少量合成数据就能教会模型有效使用真实数据上的真实补丁——在情感分析数据集的不同子集上,1到7个补丁可使准确率提升\$\sim1{-}4\$个百分点;在关系抽取数据集上F1值提升7个百分点。最后我们发现,可能需要多达100个标注样本进行微调,才能匹配少量语言补丁带来的性能提升。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理