• [论文翻译]该方法通过构建教师-学生双网络架构实现:教师网络为无标注图像生成伪标签

    我们提出元伪标签 (Meta Pseudo Labels),这是一种半监督学习方法,在 ImageNet 上实现了 90.2% 的最新 top-1 准确率,比现有最佳结果 [16] 高出 1.6%。与伪标签 (Pseudo Labels) 类似,元伪标签通过教师网络在未标记数据上生成伪标签来指导学生网络。然而,与固定教师的伪标签不同,元伪标签中的教师会根据学生在标记数据集上的表现反馈不断调整。因此,教师能生成更优质的伪标签来指导学生。1
  • [论文翻译]跨区域亲和蒸馏在道路标线分割中的应用

    我们研究从大型深度教师网络向更小型学生网络蒸馏知识以完成道路标线分割任务的问题。在本工作中,我们探索了一种新颖的知识蒸馏(KD)方法,能够更有效地将场景结构"知识"从教师模型传递给学生模型。该方法称为区域间亲和力知识蒸馏(IntRA-KD),其将给定道路场景图像分解为不同区域,并将每个区域表示为图中的节点,然后根据节点间特征分布的相似性建立成对关系,从而形成区域间亲和力图。为了从教师网络学习结构知识,要求学生网络匹配教师网络生成的图。通过采用多种轻量级模型作为学生网络、ResNet-101作为教师网络,所提方法在三个大规模道路标线分割基准数据集(ApolloScape、CULane和LLAMAS)上展现出优异效果。与现有蒸馏方法相比,IntRA-KD在所有轻量级模型上均能带来更高的性能提升。代码已开源:https://github.com/cardwing/Codes-for-IntRA-KD。
  • [论文翻译]Distill Any Depth: 蒸馏打造更强大的单目深度估计器

    零样本单目深度估计 (MDE) 的最新进展通过归一化深度表示统一深度分布,并利用伪标签蒸馏处理大规模无标注数据,显著提升了泛化能力。然而,依赖全局深度归一化的现有方法平等对待所有深度值,可能放大伪标签中的噪声并降低蒸馏效果。本文系统分析了伪标签蒸馏中的深度归一化策略,研究表明:在当前蒸馏范式(如共享上下文蒸馏)下,归一化并非必需——省略归一化反而能缓解噪声监督的影响。此外,我们不仅关注深度信息的表示方式,还提出跨上下文蒸馏方法,整合全局与局部深度线索以提升伪标签质量。同时引入辅助引导蒸馏策略,融合基于扩散的教师模型提供的互补深度先验,增强监督多样性与鲁棒性。在基准数据集上的大量实验表明,我们的方法在定量与定性评估中均显著优于现有最优方法。
  • [论文翻译]并非所有正确答案都同等重要:为何你的蒸馏来源至关重要

    蒸馏已成为增强开源语言模型推理能力的实用且有效方法。本研究通过从三个前沿教师模型(AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1)在189万条共享查询语料上收集已验证输出,开展了大规模推理数据蒸馏实证研究。我们构建了三个平行数据集并分析其分布特征,发现AM-Thinking-v1蒸馏数据具有更显著的token长度多样性和更低困惑度。在各数据集上训练的学生模型在AIME2024、AIME2025、MATH500和Live Code Bench等推理基准测试中接受评估。基于AM的模型始终表现最佳(如AIME2024达84.3分、AIME2025达72.2分、MATH500达98.4分、Live Code Bench达65.9分),并展现出适应性输出行为——对困难任务生成更长响应,对简单任务生成更短响应。这些发现凸显了高质量已验证推理轨迹的价值。我们开源AM-Thinking-v1和Qwen3-235B-A22B蒸馏数据集以支持未来开放高性能推理导向语言模型研究,数据集已在Hugging Face平台公开。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理