
推荐文章
- [论文翻译]探索结果奖励在数学推理学习中的极限
- [论文翻译]大语言模型的火热启动与规则执行采样
- [论文翻译]Slamming: 在一张 GPU 上一天内训练一个语音语言模型
- [论文翻译]DeepSeek-R1:通过强化学习提升大语言模型的推理能力
- [论文翻译]XUI-TARS: 开创性自动 GUI 交互与原生智能体
- [智能分析]DeepSeek 宣布下周连发 5 个开源项目,这才是 Open AI!
- [博客翻译]Show HN:Tangled-基于atproto构建的Git协作平台
- [论文翻译]LIMR: 少即是多——强化学习的扩展策略
- [论文翻译]HybridFlow: 灵活高效的 RLHF 框架
- [博客翻译]核心Git开发人员如何配置Git