强化学习 - 文章

[博客翻译]让AI通过语言学习理解世界

Dynalang智能体通过多模态世界模型，将各类语言信息转化为对未来情境的预测，从而更高效地完成任务...

由 openoker发布于 9天前语言理解未来预测多模态模型智能体强化学习阅读次数 45
[论文翻译]HuatuoGPT，探索将大语言模型训练成医生

本文介绍了医疗咨询大语言模型HuatuoGPT。该模型的核心方法是在监督微调阶段同时利用ChatGPT提炼数据和医生真实数据。ChatGPT的回复通常详尽、表述清晰且信息丰富，但在诸多方面无法像医生那样操作，例如综合诊断。我们认为医生真实数据能对提炼数据形成互补，使提炼后的语言模型具备医生般的表现。为充分发挥两类数据优势，我们采用RLAIF（基于AI反馈的强化学习）方式训练奖励模型，使语言模型兼具两类数据的优点。为评估模型性能，我们提出了一套综合评估方案（包含自动和人工指标）。实验结果表明，在GPT-4评估、人工评估和医疗基准数据集中，HuatuoGPT在开源大语言模型中实现了最先进的医疗咨询表现。值得注意的是，通过引入额外真实数据和RLAIF，提炼后的语言模型（即HuatuoGPT）在多数情况下超越了其教师模型ChatGPT。代码、数据及模型已开源：https://github.com/FreedomIntelligence/HuatuoGPT。在线演示见：https://www.HuatuoGPT.cn/。

由 Ylong发布于 2025-04-16 15:55:50 大语言模型监督微调强化学习阅读次数 466
[论文翻译]Zhongjing：通过专家反馈与真实场景多轮对话增强大语言模型的中医能力

大语言模型 (LLM) 近期在理解和响应用户意图方面取得了显著突破，但在中医等专业领域的表现仍落后于通用场景。现有将中医知识融入大语言模型的研究主要依赖单轮蒸馏对话数据进行监督微调 (SFT)，这类模型缺乏医生主动问诊和多轮对话理解能力，且难以与专家意图对齐。本文提出首个基于LLaMA的中医大语言模型Zhongjing，实现了从持续预训练、监督微调到人类反馈强化学习 (RLHF) 的完整训练流程。此外，我们构建了包含7万条真实医患对话的中文多轮医疗问答数据集CMtMedQA，显著提升了模型处理复杂对话和主动问诊的能力。针对生物医学领域特性，我们还制定了细粒度标注规则和评估标准。大量实验表明，Zhongjing在多项能力上超越基线模型，部分指标甚至与参数量达\$100\mathbf{x}\$的ChatGPT持平。消融实验验证了各模块贡献：预训练增强了医学知识储备，RLHF则进一步提升了指令遵循能力和安全性。相关代码、数据集及模型已开源：https://github.com/Supr it Young/Zhongjing。

由 Ylong发布于 2025-04-16 15:24:35 大语言模型强化学习阅读次数 474
[论文翻译]使用深度强化学习玩Atari游戏

我们提出了首个通过强化学习直接从高维感官输入成功学习控制策略的深度学习模型。该模型是一个卷积神经网络，采用Q-learning变体进行训练，其输入为原始像素，输出为估算未来奖励的价值函数。我们将该方法应用于Arcade Learning Environment中的七款Atari 2600游戏，未对架构或学习算法进行调整。实验表明，该方法在六款游戏中表现优于所有先前方案，并在其中三款游戏中超越了人类专家水平。

由 Ylong发布于 2025-04-15 15:26:24 卷积神经网络强化学习阅读次数 511
[论文翻译]学会信任你的感受：利用大语言模型中的自我意识缓解幻觉问题

Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation 学会信任你的感受：利用大语言模型中的自我意识缓解幻觉问题 Yuxin Liang*1, Zhuoyang Song2, Hao Wang1, Jiaxing Zhang2 1X2Robot 2 International Digital Economy Academy liang yu x in 42@gmail.co... 我们评估了大语言模型(LLM)识别和表达其内部知识状态的能力，这是对抗事实幻觉(factual hallucination)并确保大语言模型可靠应用的关键因素。实验发现大语言模型对其内部知识状态具有高度自我认知，在知识探测(knowledge probing)中准确率超过\$85\%\$。然而，大语言模型在生成过程中往往无法正确表达其内部知识，从而导致事实幻觉。我们开发了自动幻觉标注工具Dream Catcher，通过结合知识探测与一致性检查方法，对事实偏好数据进行排序。以知识偏好作为奖励信号，我们提出了基于知识反馈的强化学习(RLKF)训练框架，利用强化学习提升大语言模型的事实性和诚实度。在多个模型上的实验表明，RLKF训练能有效增强模型利用内部知识状态的能力，显著提升各类知识型和诚实度相关任务的性能。

由 147****6943发布于 2025-04-13 12:09:01 大语言模型幻觉问题强化学习阅读次数 534
[论文翻译]通过自监督世界模型进行探索规划

强化学习能够解决复杂任务，但学习过程往往针对特定任务且样本效率仍是挑战。我们提出Plan 2 Explore，这是一种自监督强化学习智能体，通过新颖的自监督探索方法和快速适应新任务的能力（探索期间无需知晓任务）来应对这些挑战。在探索阶段，与现有方法仅在智能体到达观测点后回溯计算新颖性不同，我们的智能体通过规划主动寻求预期未来新颖性来高效行动。探索结束后，该智能体能以零样本或少样本方式快速适应多个下游任务。我们在高维图像输入的复杂控制任务上进行了评估。在没有任何训练监督或任务特定交互的情况下，Plan 2 Explore超越了现有自监督探索方法，其性能甚至接近可获取奖励信息的预言机系统。视频与代码：https://ramanans1.github.io/plan2explore/

由卡汁发布于 2025-03-29 22:15:51 强化学习Plan 2 Explore自监督强化学习阅读次数 456
[论文翻译]基于广义策略更新的快速强化学习

Fast reinforcement learning with generalized policy updates 基于广义策略更新的快速强化学习 André Barretoa1, Shaobo Hou?@, Diana Borsa?, David Silver?, and Doina Precupa.b aDeepMind, London EC4A 3TW, United Kingdom; and bSchool of Computer Science, McGill University, Mont... 强化学习与深度学习的结合为解决当前难以处理的重要序列决策问题提供了一种有前景的方法。这类学习系统面临的主要障碍之一是其所需的数据量。本文提出通过分治法来解决这一问题。我们认为复杂决策问题可以自然地分解为按顺序或并行展开的多个任务。通过为每个任务关联奖励函数，这种问题分解可以无缝融入标准强化学习框架。具体实现方式是对强化学习中两个基本操作——策略改进和策略评估——进行推广。这些操作的广义版本允许利用已解决任务的方案来加速其他任务的求解。若某任务的奖励函数能较好近似为已解决任务奖励函数的线性组合，则可将强化学习问题简化为线性回归。当不满足该条件时，智能体仍可通过已掌握的任务方案与环境交互学习。两种策略都能显著减少解决强化学习问题所需的数据量。

由 147****6943发布于 2025-03-29 21:17:35 强化学习深度学习阅读次数 483
[论文翻译]在线策略强化学习中什么最重要？一项大规模实证研究

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study 在线策略强化学习中什么最重要？一项大规模实证研究 Marcin An dry ch owicz, Anton Raichuk, Piotr Stanczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin... 近年来，策略强化学习 (on-policy reinforcement learning, RL) 已成功应用于多种连续控制任务。尽管RL算法在概念上通常很简单，但其最先进的实现涉及大量底层和顶层设计决策，这些决策会显著影响最终智能体的性能。这些选择在文献中通常未被充分讨论，导致算法描述与其实现之间存在差异[27]。这使RL领域的进展难以归因，并拖慢了整体发展速度。为填补这一空白，我们在统一的策略RL框架中实现了\${>}50\$项此类"选择"，通过大规模实验研究其影响。我们在五个不同复杂度的连续控制环境中训练了超过\$250^{\ '}000\$个智能体，为策略RL训练提供了洞见和实践建议。

由 147****6943发布于 2025-03-29 20:08:20 强化学习神经网络阅读次数 556
[论文翻译]小规模大语言模型中的强化学习推理：有效与无效之处

提升大语言模型 (LLM) 的推理能力通常依赖于大量的计算资源和广泛的数据集，这在资源受限的环境中限制了其可访问性。我们的研究探讨了强化学习 (RL) 在提升小型 LLM 推理能力方面的潜力，重点关注一个 1.5 亿参数的模型 DeepSeek-R1-Distill-Qwen-1.5B，在严格的约束条件下：在 4 个 NVIDIA A40 GPU（每个 48 GB VRAM）上训练 24 小时。我们采用了 Group Relative Policy Optimization (GRPO) 算法，并精心策划了一个紧凑且高质量的数学推理数据集，进行了三项实验以探索模型的行为和性能。我们的结果表明，推理能力迅速提升——例如，AMC23 的准确率从 \$63\%\$ 上升到 \$80\%\$，AIME24 达到了 \$46.7\%\$，超过了 o1-preview——仅使用了 7,000 个样本和 \$\\$42\$ 的训练成本，而基线模型的成本则高达数千美元。然而，随着训练时间的延长，出现了优化不稳定性和长度限制等挑战。这些发现突显了基于 RL 的微调在小型 LLM 中的有效性，为大规模方法提供了一种经济高效的替代方案。我们发布了代码和数据集作为开源资源，提供了对权衡的见解，并为在资源有限的环境中构建可扩展的、具备推理能力的 LLM 奠定了基础。所有资源均可在 https://github.com/knoveleng/open-rs 获取。论文瞄准了一个更接地气的问题：如何让参数少、体积小的模型（比如1.5B参数）也能拥有强大的数学推理能力？

由 Ylong发布于 2025-03-24 12:11:41 大语言模型强化学习小规模阅读次数 727
[博客翻译]推理模型只是LLM

逻辑推理模型其实只是大语言模型（LLM）在人工智能领域，一个长期争论的话题是：大型语言模型（LLM）是否能够实现真正有用的逻辑推理。过去，很多人认为LLM本质上是一个有缺陷的工具，无法开发出通用且实用的应用程序。然而，随着技术的发展，这些批评者开始调整自己的立场，试图证明自己并非完全错误。他们声称：“我们看到的进步是因为像OpenAI的o1或DeepSeek的R1这样的模型已经超越了传统的大语言模型。”但这种说法其实是不正确的，并且我们需要尽早揭示其中的误导性。 1. DeepSeek R1：纯解码器模型...

由 openoker发布于 2025-02-10 10:32:05 逻辑推理大语言模型预训练强化学习思维链阅读次数 622
[论文翻译]RAG-DDR：使用可微分数据奖励优化检索增强生成

本文本文介绍了一种名为可微数据奖励 (Differentiable Data Rewards, DDR) 的方法，用于在 RAG（Retrieval-Augmented Generation, 检索增强生成）系统中使用 DPO (Rafailov et al., 2024) 方法对端到端的智能体进行优化。DDR 采用了一种 rollout 方法 (Kocsis & Szepesv´ari, 2006) 来为每个智能体从整个系统中收集奖励，并根据奖励优化智能体。具体而言，我们遵循 Asai 等人 (2024a) 的工作，构建了一个典型的 RAG 系统来评估 DDR 模型的有效性。该系统包括一个用于选择检索文档的知识精炼模块和一个基于查询和精炼知识生成响应的生成模块。然后，我们通过使用 DDR 优化基于双智能体的 RAG 系统，构建了 RAG-DDR 模型。在整个优化过程中，我们使用来自整个 RAG 系统的奖励，并迭代优化生成模块和知识精炼模块，以使两个智能体之间的数据偏好对齐...

由 shadow发布于 2025-02-07 17:21:14 RAG强化学习阅读次数 751
[博客翻译]OpenAI新o1思维链模型说明

今天，开放人工智能发布了两款重要的预览模型：o1-preview和o1-mini（尽管名字中带“迷你”，但它也是一个预览版本）——之前传闻它们的代号是“草莓”。这些模型并非简单地在性能上比GPT-4有所提升，而是引入了成本和性能的显著权衡，以换取更强大的“推理”能力...

由 openoker发布于 2024-09-13 12:18:42 o1预览链接思考强化学习LLMs 阅读次数 612
[论文翻译]根据人类反馈进行强化学习

为了使复杂的强化学习 (RL) 系统与现实世界环境进行有效交互，我们需要将复杂的目标传达给这些系统。在这项工作中，我们探索了一种新的目标传达方法：使用成对轨迹片段之间（非专家的）人类偏好向智能体表示目标。我们表明，这种方法可以有效地解决包括 Atari 游戏和模拟机器人运动在内的复杂的 RL 任务，无需使用奖励函数，仅需在agent与环境的交互的过程中提供不到 1% 的反馈即可，这大大降低了人工监督的成本，以至于可以实际应用于最先进的 RL 系统。为了证明我们方法的灵活性，我们表明，用大约一个小时的人工时间，就可以成功地训练复杂的新行为，相比过去关于从人类反馈中学习的工作，我们关注的行为和环境要复杂得多。

由 openoker发布于 2023-02-10 11:37:48 强化学习阅读次数 2443
[论文翻译]利用强化学习进行量化投资的尝试

本文希望通过机器学习算法，设立相应的环境，选取真实的数据，使得程序能够预判风险进行投资，使得投资能够最大化。本文的经济学部分参考了论文：ML-TEA 一套基于机器学习和技术分析的量化投资算法李斌，主要通过其经济学方面的数据，筛选出了主要的4种状态变量以及经济指标。

由 openoker发布于 2022-07-31 00:50:45 强化学习阅读次数 2316
[论文翻译]使用Project Ray扩展AI，Spark的继任者

AI应用程序需要支持分布式训练，分布式强化学习，模型服务，超参数搜索，数据处理和流传输。我们需要一个可以处理所有这些问题的统一架构。

由 openoker发布于 2022-06-03 01:08:38 强化学习深度学习架构阅读次数 2983

创作中心

开启你的AI千集创作之旅

发布首篇内容，开通创作中心快来成为AI千集创作者吧～