推荐文章
- [论文翻译]大语言模型是少样本学习者
- [论文翻译]OPT: 开放预训练 Transformer 语言模型
- [论文翻译]从人类反馈中学习总结
- [论文翻译]基于人类偏好的深度强化学习
- [论文翻译]rStar-Math:小型大语言模型可以通过自我进化的深度思考掌握数学推理
- [论文翻译]从人类反馈中学习摘要生成
- [论文翻译]红队测试语言模型以减少危害:方法、扩展行为与经验教训
- [论文翻译]DeepSeek-V3 技术报告
- [论文翻译]Mamba: 线性时间序列建模与选择性状态空间 (Selective State Spaces)
- [论文翻译]训练大语言模型 (Large Language Model) 以遵循人类反馈的指令