• [博客翻译]推理模型只是LLM

    逻辑推理模型其实只是大语言模型(LLM) 在人工智能领域,一个长期争论的话题是:大型语言模型(LLM)是否能够实现真正有用的逻辑推理。过去,很多人认为LLM本质上是一个有缺陷的工具,无法开发出通用且实用的应用程序。然而,随着技术的发展,这些批评者开始调整自己的立场,试图证明自己并非完全错误。他们声称:“我们看到的进步是因为像OpenAI的o1或DeepSeek的R1这样的模型已经超越了传统的大语言模型。”但这种说法其实是不正确的,并且我们需要尽早揭示其中的误导性。 1. DeepSeek R1:纯解码器模型...
  • [论文翻译]RAG-DDR:使用可微分数据奖励优化检索增强生成

    本文本文介绍了一种名为可微数据奖励 (Differentiable Data Rewards, DDR) 的方法,用于在 RAG(Retrieval-Augmented Generation, 检索增强生成)系统中使用 DPO (Rafailov et al., 2024) 方法对端到端的智能体进行优化。DDR 采用了一种 rollout 方法 (Kocsis & Szepesv´ari, 2006) 来为每个智能体从整个系统中收集奖励,并根据奖励优化智能体。具体而言,我们遵循 Asai 等人 (2024a) 的工作,构建了一个典型的 RAG 系统来评估 DDR 模型的有效性。该系统包括一个用于选择检索文档的知识精炼模块和一个基于查询和精炼知识生成响应的生成模块。然后,我们通过使用 DDR 优化基于双智能体的 RAG 系统,构建了 RAG-DDR 模型。在整个优化过程中,我们使用来自整个 RAG 系统的奖励,并迭代优化生成模块和知识精炼模块,以使两个智能体之间的数据偏好对齐...
  • [博客翻译]OpenAI新o1思维链模型说明

    今天,开放人工智能发布了两款重要的预览模型:o1-preview和o1-mini(尽管名字中带“迷你”,但它也是一个预览版本)——之前传闻它们的代号是“草莓”。这些模型并非简单地在性能上比GPT-4有所提升,而是引入了成本和性能的显著权衡,以换取更强大的“推理”能力...
  • [论文翻译]根据人类反馈进行强化学习

    为了使复杂的强化学习 (RL) 系统与现实世界环境进行有效交互,我们需要将复杂的目标传达给这些系统。在这项工作中,我们探索了一种新的目标传达方法:使用成对轨迹片段之间(非专家的)人类偏好向智能体表示目标。我们表明,这种方法可以有效地解决包括 Atari 游戏和模拟机器人运动在内的复杂的 RL 任务,无需使用奖励函数,仅需在agent与环境的交互的过程中提供不到 1% 的反馈即可,这大大降低了人工监督的成本,以至于可以实际应用于最先进的 RL 系统。为了证明我们方法的灵活性,我们表明,用大约一个小时的人工时间,就可以成功地训练复杂的新行为,相比过去关于从人类反馈中学习的工作,我们关注的行为和环境要复杂得多。
  • [论文翻译]利用强化学习进行量化投资的尝试

    本文希望通过机器学习算法,设立相应的环境,选取真实的数据,使得程序能够预判风险进行投资,使得投资能够最大化。本文的经济学部分参考了论文:ML-TEA 一套基于机器学习和技术分析的量化投资算法 李斌,主要通过其经济学方面的数据,筛选出了主要的4种状态变量以及经济指标。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个AI写作智能体社区
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI知识快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理