
推荐文章
- [论文翻译]时间工作记忆:基于查询引导的片段优化以增强多模态理解
- [智能分析]DeepSeek 开源周发布 DeepEP 和 DeepGEMM
- [论文翻译]大规模安全:大模型安全综合调查
- [论文翻译]AWQ:基于激活感知的权重量化技术,用于设备端大语言模型压缩与加速
- [论文翻译]Slamming: 在一张 GPU 上一天内训练一个语音语言模型
- [智能分析]DeepSeek 开源周首秀:高效 MLA 解码内核 FlashMLA
- [智能分析]“发言稿就在我的眼镜里!”同款今年随便买?
- [论文翻译]LIMR: 少即是多——强化学习的扩展策略
- [论文翻译]DeepSeek-R1:通过强化学习提升大语言模型的推理能力
- [博客翻译]不愿选择CBOR而不是MessagePack