
推荐文章
- [论文翻译]AWQ:基于激活感知的权重量化技术,用于设备端大语言模型压缩与加速
- [论文翻译]Sigmoid Loss用于语言图像预训练
- [论文翻译]HybridFlow: 灵活高效的 RLHF 框架
- [论文翻译]Slamming: 在一张 GPU 上一天内训练一个语音语言模型
- [论文翻译]DeepSeek-R1:通过强化学习提升大语言模型的推理能力
- [博客翻译]AI CUDA工程师:代理CUDA内核发现、优化和组合
- [博客翻译]HTTP/2在负载均衡器之后没有多大意义
- [论文翻译]蒸馏任意深度:蒸馏打造更强大的单目深度估计器
- [论文翻译]无需无分类器指导的扩散模型
- [论文翻译]DeepSeek-R1:通过强化学习提升大语言模型的推理能力