
推荐文章
- [论文翻译]Slim attention: 无需损失精度,将上下文内存减半 —— $K.$ -cache 是 MHA 所需的全部
- [论文翻译]基于先进Transformer的语言模型演化分析:观点挖掘实验
- [智能分析]医疗行业中大模型微调方案
- [论文翻译]Comet: 面向专家混合模型的细粒度计算-通信重叠
- [智能分析]AI智能体的关键要素及应用前景
- [论文翻译]LlamBERT: NLP 中的大规模低成本数据标注
- [论文翻译]SAGA: 一种支持非强凸复合目标的快速增量梯度方法
- [论文翻译]SAGA: 一种支持非强凸复合目标的快速增量梯度方法
- [论文翻译]强化学习优于监督微调:以音频问答为例
- [论文翻译]重新审视长尾分布下的对抗训练