• [博客翻译]OpenAI新o1思维链模型说明

    今天,开放人工智能发布了两款重要的预览模型:o1-preview和o1-mini(尽管名字中带“迷你”,但它也是一个预览版本)——之前传闻它们的代号是“草莓”。这些模型并非简单地在性能上比GPT-4有所提升,而是引入了成本和性能的显著权衡,以换取更强大的“推理”能力...
  • [论文翻译]根据人类反馈进行强化学习

    为了使复杂的强化学习 (RL) 系统与现实世界环境进行有效交互,我们需要将复杂的目标传达给这些系统。在这项工作中,我们探索了一种新的目标传达方法:使用成对轨迹片段之间(非专家的)人类偏好向智能体表示目标。我们表明,这种方法可以有效地解决包括 Atari 游戏和模拟机器人运动在内的复杂的 RL 任务,无需使用奖励函数,仅需在agent与环境的交互的过程中提供不到 1% 的反馈即可,这大大降低了人工监督的成本,以至于可以实际应用于最先进的 RL 系统。为了证明我们方法的灵活性,我们表明,用大约一个小时的人工时间,就可以成功地训练复杂的新行为,相比过去关于从人类反馈中学习的工作,我们关注的行为和环境要复杂得多。
  • [论文翻译]利用强化学习进行量化投资的尝试

    本文希望通过机器学习算法,设立相应的环境,选取真实的数据,使得程序能够预判风险进行投资,使得投资能够最大化。本文的经济学部分参考了论文:ML-TEA 一套基于机器学习和技术分析的量化投资算法 李斌,主要通过其经济学方面的数据,筛选出了主要的4种状态变量以及经济指标。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个智能写作平台
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,写作快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理