
推荐文章
- [论文翻译]Slamming: 在一张 GPU 上一天内训练一个语音语言模型
- [论文翻译]olmOCR: 使用视觉语言模型解锁 PDF 中的数万亿 Token
- [论文翻译]从小时到分钟:无损加速超长序列生成至10万Token
- [智能分析]普通人如何避免陷入DeepSeek大模型的幻觉陷阱
- [博客翻译]如果数据值得保留,请将其保存在Markdown中
- [智能分析]DeepSeek 开源周发布 DeepEP 和 DeepGEMM
- [论文翻译]OpenRLHF: 一个易用、可扩展且高性能的 RLHF 框架
- [论文翻译]重新审视长尾分布下的对抗训练
- [论文翻译]无需无分类器指导的扩散模型
- [博客翻译]macOS提示和技巧(2022)