[博客翻译]OpenAI新o1思维链模型说明 今天,开放人工智能发布了两款重要的预览模型:o1-preview和o1-mini(尽管名字中带“迷你”,但它也是一个预览版本)——之前传闻它们的代号是“草莓”。这些模型并非简单地在性能上比GPT-4有所提升,而是引入了成本和性能的显著权衡,以换取更强大的“推理”能力... 由 openoker发布于 2024-09-13 12:18:42 o1预览链接思考强化学习LLMs 阅读次数 73
[论文翻译]根据人类反馈进行强化学习 为了使复杂的强化学习 (RL) 系统与现实世界环境进行有效交互,我们需要将复杂的目标传达给这些系统。在这项工作中,我们探索了一种新的目标传达方法:使用成对轨迹片段之间(非专家的)人类偏好向智能体表示目标。我们表明,这种方法可以有效地解决包括 Atari 游戏和模拟机器人运动在内的复杂的 RL 任务,无需使用奖励函数,仅需在agent与环境的交互的过程中提供不到 1% 的反馈即可,这大大降低了人工监督的成本,以至于可以实际应用于最先进的 RL 系统。为了证明我们方法的灵活性,我们表明,用大约一个小时的人工时间,就可以成功地训练复杂的新行为,相比过去关于从人类反馈中学习的工作,我们关注的行为和环境要复杂得多。 由 openoker发布于 2023-02-10 11:37:48 强化学习 阅读次数 1796
[论文翻译]利用强化学习进行量化投资的尝试 本文希望通过机器学习算法,设立相应的环境,选取真实的数据,使得程序能够预判风险进行投资,使得投资能够最大化。本文的经济学部分参考了论文:ML-TEA 一套基于机器学习和技术分析的量化投资算法 李斌,主要通过其经济学方面的数据,筛选出了主要的4种状态变量以及经济指标。 由 openoker发布于 2022-07-31 00:50:45 强化学习 阅读次数 1809
[论文翻译]使用Project Ray扩展AI,Spark的继任者 AI应用程序需要支持分布式训练,分布式强化学习,模型服务,超参数搜索,数据处理和流传输。我们需要一个可以处理所有这些问题的统一架构。 由 openoker发布于 2022-06-03 01:08:38 强化学习深度学习架构 阅读次数 2364