• [论文翻译]小规模大语言模型中的强化学习推理:有效与无效之处

    提升大语言模型 (LLM) 的推理能力通常依赖于大量的计算资源和广泛的数据集,这在资源受限的环境中限制了其可访问性。我们的研究探讨了强化学习 (RL) 在提升小型 LLM 推理能力方面的潜力,重点关注一个 1.5 亿参数的模型 DeepSeek-R1-Distill-Qwen-1.5B,在严格的约束条件下:在 4 个 NVIDIA A40 GPU(每个 48 GB VRAM)上训练 24 小时。我们采用了 Group Relative Policy Optimization (GRPO) 算法,并精心策划了一个紧凑且高质量的数学推理数据集,进行了三项实验以探索模型的行为和性能。我们的结果表明,推理能力迅速提升——例如,AMC23 的准确率从 \$63\%\$ 上升到 \$80\%\$,AIME24 达到了 \$46.7\%\$,超过了 o1-preview——仅使用了 7,000 个样本和 \$\\$42\$ 的训练成本,而基线模型的成本则高达数千美元。然而,随着训练时间的延长,出现了优化不稳定性和长度限制等挑战。这些发现突显了基于 RL 的微调在小型 LLM 中的有效性,为大规模方法提供了一种经济高效的替代方案。我们发布了代码和数据集作为开源资源,提供了对权衡的见解,并为在资源有限的环境中构建可扩展的、具备推理能力的 LLM 奠定了基础。所有资源均可在 https://github.com/knoveleng/open-rs 获取。 论文瞄准了一个更接地气的问题:如何让参数少、体积小的模型(比如1.5B参数)也能拥有强大的数学推理能力?
  • [博客翻译]推理模型只是LLM

    逻辑推理模型其实只是大语言模型(LLM) 在人工智能领域,一个长期争论的话题是:大型语言模型(LLM)是否能够实现真正有用的逻辑推理。过去,很多人认为LLM本质上是一个有缺陷的工具,无法开发出通用且实用的应用程序。然而,随着技术的发展,这些批评者开始调整自己的立场,试图证明自己并非完全错误。他们声称:“我们看到的进步是因为像OpenAI的o1或DeepSeek的R1这样的模型已经超越了传统的大语言模型。”但这种说法其实是不正确的,并且我们需要尽早揭示其中的误导性。 1. DeepSeek R1:纯解码器模型...
  • [论文翻译]RAG-DDR:使用可微分数据奖励优化检索增强生成

    本文本文介绍了一种名为可微数据奖励 (Differentiable Data Rewards, DDR) 的方法,用于在 RAG(Retrieval-Augmented Generation, 检索增强生成)系统中使用 DPO (Rafailov et al., 2024) 方法对端到端的智能体进行优化。DDR 采用了一种 rollout 方法 (Kocsis & Szepesv´ari, 2006) 来为每个智能体从整个系统中收集奖励,并根据奖励优化智能体。具体而言,我们遵循 Asai 等人 (2024a) 的工作,构建了一个典型的 RAG 系统来评估 DDR 模型的有效性。该系统包括一个用于选择检索文档的知识精炼模块和一个基于查询和精炼知识生成响应的生成模块。然后,我们通过使用 DDR 优化基于双智能体的 RAG 系统,构建了 RAG-DDR 模型。在整个优化过程中,我们使用来自整个 RAG 系统的奖励,并迭代优化生成模块和知识精炼模块,以使两个智能体之间的数据偏好对齐...
  • [博客翻译]OpenAI新o1思维链模型说明

    今天,开放人工智能发布了两款重要的预览模型:o1-preview和o1-mini(尽管名字中带“迷你”,但它也是一个预览版本)——之前传闻它们的代号是“草莓”。这些模型并非简单地在性能上比GPT-4有所提升,而是引入了成本和性能的显著权衡,以换取更强大的“推理”能力...
  • [论文翻译]根据人类反馈进行强化学习

    为了使复杂的强化学习 (RL) 系统与现实世界环境进行有效交互,我们需要将复杂的目标传达给这些系统。在这项工作中,我们探索了一种新的目标传达方法:使用成对轨迹片段之间(非专家的)人类偏好向智能体表示目标。我们表明,这种方法可以有效地解决包括 Atari 游戏和模拟机器人运动在内的复杂的 RL 任务,无需使用奖励函数,仅需在agent与环境的交互的过程中提供不到 1% 的反馈即可,这大大降低了人工监督的成本,以至于可以实际应用于最先进的 RL 系统。为了证明我们方法的灵活性,我们表明,用大约一个小时的人工时间,就可以成功地训练复杂的新行为,相比过去关于从人类反馈中学习的工作,我们关注的行为和环境要复杂得多。
  • [论文翻译]利用强化学习进行量化投资的尝试

    本文希望通过机器学习算法,设立相应的环境,选取真实的数据,使得程序能够预判风险进行投资,使得投资能够最大化。本文的经济学部分参考了论文:ML-TEA 一套基于机器学习和技术分析的量化投资算法 李斌,主要通过其经济学方面的数据,筛选出了主要的4种状态变量以及经济指标。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个私有数据集生成平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI数据集快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理