
推荐文章
- [论文翻译]Slim attention: 无需损失精度,将上下文内存减半 —— $K.$ -cache 是 MHA 所需的全部
- [论文翻译]SEAL:语义感知图像水印
- [论文翻译]Slim Attention:无需损失精度即可将上下文内存减半 —— $K.$ -cache 是 MHA 所需的全部
- [论文翻译]CrossWOZ: 一个大规模中文跨领域任务导向对话数据集
- [论文翻译]Squeeze BERT:计算机视觉能为 NLP 提供哪些关于高效神经网络的启示?
- [论文翻译]SAGA: 一种支持非强凸复合目标的快速增量梯度方法
- [论文翻译]Search-R1: 通过强化学习训练大语言模型进行推理并利用搜索引擎
- [论文翻译]数学推理的自我奖励校正
- [论文翻译]通过非实验性深度学习实现 0.8% 奈奎斯特计算鬼成像
- [论文翻译]基于先进Transformer的语言模型演化分析:观点挖掘实验