• [论文翻译]FinTextQA: 长文本金融问答数据集

    FinTextQA: A Dataset for Long-form Financial Question Answering FinTextQA: 长文本金融问答数据集 Jian Chen1 2 Peilin Zhou2 Yining Hua3 Yingxin Loh1 Kehui Chen1 Ziyuan Li1 Bing Zhu1* Junwei Liang2∗ 1HSBC Lab 2Hong Kong University of Science and Technology (Guangzhou) ... 准确评估金融问答(QA)系统需要涵盖多样化问题类型和场景的综合性数据集。然而当前金融QA数据集存在范围单一和问题复杂度不足的缺陷。本文提出FinTextQA——一个面向金融领域长文本问答(LFQA)的新数据集,包含从金融教材和政府机构网站提取筛选的1,262个高质量、来源可溯的问答对。此外,我们开发了基于检索增强生成(RAG)的LFQA系统,由嵌入器、检索器、重排序器和生成器构成。通过人工排序、自动指标和GPT-4评分等多维度评估方法,测试了不同LFQA系统配置在强噪声环境下的性能表现。结果表明:(1) 在所有对比生成器中,Baichuan2-7B在准确度得分上与GPT-3.5-turbo表现相当;(2) 本数据集上最优系统配置为:嵌入器Ada2+检索器Automated Merged Retrieval+重排序器Bge-Reranker-Base+生成器Baichuan2-7B;(3) 当上下文长度达到特定阈值后,模型对噪声的敏感度显著降低。
  • [论文翻译]长文本大语言模型加速器:通过提示压缩在长上下文场景中优化大语言模型性能

    Long LL M Lingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression 长文本大语言模型加速器:通过提示压缩在长上下文场景中优化大语言模型性能 Huiqiang Jiang, Qianhui Wu, Xufang Luo, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu Microsoft Corporation {hjiang,q... 在长上下文场景中,大语言模型(LLM)面临三大挑战:计算成本更高、性能下降以及位置偏差。研究表明,LLM性能取决于输入提示中关键信息的密度和位置。受此启发,我们提出LongLLMLingua进行提示压缩,以提升LLM对关键信息的感知能力,从而同时解决这三个问题。我们在多种长上下文场景中的广泛评估表明,LongLLMLingua不仅能提升性能,还可显著降低成本和延迟。例如在Natural Questions基准测试中,LongLLMLingua使用GPT-3.5-Turbo时以约4倍的token缩减量实现了高达\$21.4\%\$的性能提升,带来显著成本节约。在LooGLE基准测试中实现了\$94.0\%\$的成本降低。此外,当以\$2\mathbf{x}{-}6\mathbf{x}\$的压缩率处理约10k token的提示时,LongLLMLingua能将端到端延迟加速\$1.4\mathrm{X}{-}2.6\mathrm{X}\$。
  • [论文翻译]RAG编年史:检索器、文本块与生成器

    THE CHRONICLES OF RAG: THE RETRIEVER, THE CHUNK AND THE GENERATOR RAG编年史:检索器、文本块与生成器 PREPRINT 预印本 ∗Paulo Finardi *Paulo Finardi ∗Leonardo Avila Marcos Piau Leonardo Avila Marcos Piau Rodrigo Castaldoni Pablo Costa Rodrigo Castaldoni Pablo Costa Pedro Gengo... 检索增强生成 (Retrieval Augmented Generation, RAG) 已成为大语言模型访问外部数据的主流范式之一,同时也作为缓解幻觉的落地机制。在实现RAG时,开发者可能面临多重挑战:检索模型的有效集成、高效的表示学习、数据多样性、计算效率优化、评估体系以及文本生成质量。鉴于这些挑战,每天都有新的RAG改进技术涌现,使得针对具体问题穷尽所有组合实验变得不切实际。 本文针对巴西葡萄牙语场景,提出了实现、优化和评估RAG的最佳实践,重点构建了一个简洁的推理与实验流程。我们采用多样化方法解答关于《哈利·波特》首部曲的问题,答案生成环节使用了OpenAI的gpt-4、gpt-4-1106-preview、gpt-3.5-turbo-1106以及Google的Gemini Pro模型。通过优化检索器质量,我们的方法在\$\mathbf{MRR}@10\$指标上较基线提升\$35.4\%\$。在应用层面对输入规模进行优化时,我们发现仍有\$2.\dot{4}\%\$的提升空间。最终呈现的完整RAG架构包含我们的改进建议,使得相对评分从基线\$5\bar{7}.88\%\$提升至最高\$98.61\%\$。
  • [论文翻译]SELF-RAG: 通过自我反思学习检索、生成与评判

    SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION SELF-RAG: 通过自我反思学习检索、生成与评判 Akari Asai†, Zeqiu $\mathbf{W}\mathbf{u}^{\dagger}$ , Yizhong Wang†§, Avirup $\mathbf{Sil^{\ddagger}}$ , Hannaneh Hajishirzi†§ †University of Wash... 尽管大语言模型(LLM)具有卓越能力,但由于仅依赖其封装的参数化知识,生成的响应常包含事实性错误。检索增强生成(RAG)通过临时检索相关知识来增强语言模型,减少了此类问题。然而,无论检索是否必要或段落是否相关, indiscriminately检索并固定数量地合并段落会降低语言模型的灵活性,或导致生成无益的响应。我们提出了一种名为自反思检索增强生成(SELF-RAG)的新框架,通过检索和自反思提升语言模型的质量和事实性。该框架训练一个可自适应按需检索段落的通用语言模型,并使用称为反思token的特殊token来生成并对检索段落及自身生成内容进行反思。生成反思token使模型在推理阶段可控,能够根据不同任务需求调整行为。实验表明,SELF-RAG(70亿和130亿参数)在多样化任务上显著优于当前最先进的大语言模型和检索增强模型。具体而言,SELF-RAG在开放域问答、推理和事实核查任务上优于ChatGPT和检索增强版Llama2-chat,并在长文本生成的事实性和引用准确性方面较这些模型展现出显著提升。[20]
  • [论文翻译]面向知识密集型NLP任务的检索增强生成

    Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 面向知识密集型NLP任务的检索增强生成 Patrick Lewis†‡, Ethan Perez?, Patrick Lewis†‡, Ethan Perez?, Aleksandra Piktus†, Fabio Petroni†, Vladimir Karpukhin†, Naman Goyal†, Heinrich Küttler†, Aleksandra Piktus†,... 大型预训练语言模型已被证明能在参数中存储事实性知识,并在下游自然语言处理(NLP)任务微调后取得最先进成果。然而,其访问和精确操纵知识的能力仍然有限,因此在知识密集型任务上,其性能落后于专用架构。此外,为模型决策提供溯源依据及更新其世界知识仍是待解的研究难题。具有可微分显式非参数记忆访问机制的预训练模型能解决这一问题,但迄今仅被研究用于抽取式下游任务。我们探索了一种适用于检索增强生成(RAG)的通用微调方案——该模型将预训练的参数化记忆与非参数化记忆相结合用于语言生成。我们提出的RAG模型中,参数化记忆采用预训练的seq2seq模型,非参数化记忆则是通过预训练神经检索器访问的维基百科稠密向量索引。我们比较了两种RAG架构:一种在整个生成序列中固定使用相同检索段落,另一种允许每个token使用不同段落。我们在多种知识密集型NLP任务上对模型进行微调和评估,在三个开放域问答任务中刷新了最高性能,超越了参数化seq2seq模型和专用检索-抽取架构。对于语言生成任务,我们发现RAG模型相比最先进的纯参数化seq2seq基线能生成更具体、多样且符合事实的文本。
  • [论文翻译]检索增强生成在知识密集型 NLP 任务中的应用

    大型预训练语言模型已被证明能够在参数中存储事实知识,并在下游自然语言处理(NLP)任务中进行微调时取得最先进的结果。然而,它们在访问和精确操作知识方面的能力仍然有限,因此在知识密集型任务上,它们的表现落后于特定任务的架构。此外,为它们的决策提供来源以及更新其世界知识仍然是开放的研究问题。迄今为止,具有可微分访问机制的预训练模型仅在抽取式下游任务中进行了研究。我们探索了一种通用的微调方法,用于检索增强生成(RAG)——结合了预训练参数化内存和非参数化内存的语言生成模型。我们引入了RAG模型,其中参数化内存是一个预训练的seq2seq模型,非参数化内存是维基百科的密集向量索引,通过预训练的神经检索器进行访问。我们比较了两种RAG公式,一种是在整个生成序列中使用相同的检索段落,另一种是每个token可以使用不同的段落。我们在广泛的知识密集型NLP任务上对模型进行了微调和评估,并在三个开放域问答任务上取得了最先进的结果,超越了参数化的seq2seq模型和特定任务的检索-抽取架构。对于语言生成任务,我们发现RAG模型生成的文本比最先进的仅参数化seq2seq基线更具特异性、多样性和事实性。
  • [博客翻译]情境检索:让AI模型在特定场景下更聪明

    想象一下,你的AI助手需要知道它正在处理的业务的所有细节,或者法律分析机器人得通晓无数案例。为了让AI在特定场景中发挥作用,通常需要它们具备背景知识。传统的AI增强方法——检索增强生成(RAG)——通过从知识库中找到相关的信息并添加到用户的问题中,极大地增强了模型的回答能力。然而,传统RAG有个问题:在编码信息时会移除上下文,导致系统无法从知识库中准确找到相关信息。我们提出了一种名为“情境检索”的新方法,它包含两个子技术:情境嵌入和情境BM25。通过这些改进,...
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理