• [论文翻译]探索迁移学习的极限:基于统一文本到文本Transformer的研究

    迁移学习 (Transfer Learning) 作为一种先在数据丰富的任务上进行预训练、再在下游任务上微调模型的技术,已成为自然语言处理 (NLP) 领域的强大方法。其有效性催生了多样化的方法、方法论和实践。本文通过提出统一框架(将所有基于文本的语言问题转换为文本到文本格式),系统性地探索了NLP迁移学习技术体系。我们比较了数十项语言理解任务中的预训练目标、架构、无标注数据集、迁移方法等因素,并结合规模化实验与新构建的"Colossal Clean Crawled Corpus"数据集,在摘要生成、问答、文本分类等多项基准测试中取得最先进成果。为促进NLP迁移学习研究,我们公开了数据集、预训练模型和代码。
  • [论文翻译]HuaTuo (华驼): 基于中文医学知识微调的LLaMA模型

    大语言模型 (LLMs),如 LLaMA 模型,已在多种通用领域的自然语言处理 (NLP) 任务中展现出其有效性。然而,由于回答需要医学专业知识,大语言模型在生物医学领域的任务中尚未发挥最佳性能。针对这一挑战,我们提出了华驼 (HuaTuo),这是一个基于 LLaMA 的模型,通过生成的问答 (QA) 实例进行了监督微调。实验结果表明,华驼生成的回答具有更可靠的医学知识。我们提出的华驼模型可在 https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 获取。
  • [论文翻译]RadLLM: 面向放射学的大语言模型综合医疗基准

    大语言模型(LLM)的崛起标志着自然语言处理(NLP)领域的关键转折。这些模型已彻底改变多个领域,并在医疗行业产生重大影响。当前大语言模型数量空前,其中许多具备中英双语能力。然而针对这些模型的全面评估仍有待开展,这一缺失在放射学NLP领域尤为明显。本研究通过严格评估32个大语言模型解读放射学报告(放射学NLP的核心环节)的能力来填补这一空白,重点测试模型从影像学表现推导诊断意见的能力。评估结果揭示了这些大语言模型的性能表现、优势与不足,为其在医疗领域的实际应用提供了重要参考。
  • [论文翻译]PYTEXT:从 NLP 研究到生产的无缝路径

    我们介绍 PyText1——一个基于 PyTorch 的深度学习 NLP 建模框架。PyText 解决了快速实验和大规模模型服务的常见冲突需求。它通过为模型组件提供简单且可扩展的接口,并利用 PyTorch 的能力通过优化的 Caffe2 执行引擎导出模型进行推理,实现了这一目标。我们报告了将实验和生产工作流迁移到 PyText 的经验,这使得我们能够更快地迭代新的建模想法,并在工业规模上无缝部署它们。
  • [论文翻译]DEMONSTRATE–SEARCH–PREDICT: 结合检索和语言模型的知识密集型 NLP

    检索增强的上下文学习已成为一种强大的方法,用于使用冻结的语言模型(LM)和检索模型(RM)处理知识密集型任务。现有工作将这些模型结合在简单的“检索-然后-读取”流程中,其中RM检索段落并将其插入LM提示中。为了充分发挥冻结LM和RM的潜力,我们提出了DEMONSTRATE–SEARCH–PREDICT(DSP)框架,该框架依赖于在LM和RM之间通过复杂的流程传递自然语言文本。DSP可以表达高级程序,这些程序引导流程感知的演示、搜索相关段落并生成基于事实的预测,系统地将问题分解为LM和RM可以更可靠处理的小型转换。我们编写了新颖的DSP程序,用于在开放域、多跳和对话环境中回答问题,在早期评估中确立了新的最先进的上下文学习结果,并分别相对于原始LM(GPT-3.5)、标准的检索-然后-读取流程和同时期的自问流程,实现了37-120%、8-39%和80-290%的相对增益。我们在https://github.com/stanfordnlp/dsp上发布了DSP。
  • [论文翻译]Squeeze BERT:计算机视觉能为 NLP 提供哪些关于高效神经网络的启示?

    人类每天阅读和书写数千亿条消息。此外,由于大规模数据集、大型计算系统和更好的神经网络模型的可用性,自然语言处理(NLP)技术在理解、校对和组织这些消息方面取得了显著进展。因此,在众多应用中部署 NLP 技术以帮助网络用户、社交网络和企业具有巨大的机会。特别是,我们认为智能手机和其他移动设备是规模化部署 NLP 模型的关键平台。然而,当今高度准确的 NLP 神经网络模型(如 BERT 和 RoBERTa)计算成本极高,BERT-base 在 Pixel 3 智能手机上分类一段文本需要 1.7 秒。在这项工作中,我们观察到诸如分组卷积等方法在计算机视觉网络中带来了显著的加速,但许多这些技术尚未被 NLP 神经网络设计者采用。我们展示了如何用分组卷积替换自注意力层中的多个操作,并将这一技术应用于一种名为 Squeeze BERT 的新型网络架构中,该架构在 Pixel 3 上比 BERT-base 快 \$4.3\mathbf{X}\$,同时在 GLUE 测试集上实现了具有竞争力的准确性。Squeeze BERT 代码将公开发布。
  • [论文翻译]检索增强生成在知识密集型 NLP 任务中的应用

    大型预训练语言模型已被证明能够在参数中存储事实知识,并在下游自然语言处理(NLP)任务中进行微调时取得最先进的结果。然而,它们在访问和精确操作知识方面的能力仍然有限,因此在知识密集型任务上,它们的表现落后于特定任务的架构。此外,为它们的决策提供来源以及更新其世界知识仍然是开放的研究问题。迄今为止,具有可微分访问机制的预训练模型仅在抽取式下游任务中进行了研究。我们探索了一种通用的微调方法,用于检索增强生成(RAG)——结合了预训练参数化内存和非参数化内存的语言生成模型。我们引入了RAG模型,其中参数化内存是一个预训练的seq2seq模型,非参数化内存是维基百科的密集向量索引,通过预训练的神经检索器进行访问。我们比较了两种RAG公式,一种是在整个生成序列中使用相同的检索段落,另一种是每个token可以使用不同的段落。我们在广泛的知识密集型NLP任务上对模型进行了微调和评估,并在三个开放域问答任务上取得了最先进的结果,超越了参数化的seq2seq模型和特定任务的检索-抽取架构。对于语言生成任务,我们发现RAG模型生成的文本比最先进的仅参数化seq2seq基线更具特异性、多样性和事实性。
  • [论文翻译]通过语境化话语处理理解政治

    政治家们在对事件做出反应时经常有底层议程。各种事件的上下文中的论据反映了给定实体的一组相当一致的议程。尽管近期预用语言模型(PLMS)进行了进展,但这些文本表示不设计用于捕获此类细微差别模式。在本文中,我们提出了一种由编码器和作曲器模块组成的组成读者模型,该模型包括捕获和利用此类信息,以为实体,问题和事件产生更有效的表示。这些表示由Tweets,新闻稿,问题,新闻文章和参与实体进行了内容化。我们的模型可以一次处理多个文档,并在几个问题或事件中生成多个实体的组合表示。通过定性和定量的实证分析,我们表明这些陈述有意义和有效。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理