• [论文翻译]Slim Attention:无需损失精度即可将上下文内存减半 —— $K.$ -cache 是 MHA 所需的全部

    Slim attention: cut your context memory in half without loss of accuracy — K. -cache is all you need for MHA Slim Attention:无需损失精度即可将上下文内存减半 —— K. -cache 是 MHA 所需的全部 Nils Graef*, Andrew Was ie lewski Open Machine Nils Graef*, Andrew Wasie lewski Open...
  • [论文翻译]: 基于大语言模型的算法设计平台

    我们介绍了LLM4AD,一个用于大语言模型(LLMs)算法设计(AD)的统一Python平台。LLM4AD是一个通用框架,包含模块化的搜索方法、算法设计任务和LLM接口。该平台集成了众多关键方法,并支持跨多个领域的广泛算法设计任务,包括优化、机器学习和科学发现。我们还设计了一个统一的评估沙盒,以确保算法的安全和稳健评估。此外,我们编制了一套全面的支持资源,包括教程、示例、用户手册、在线资源和专用的图形用户界面(GUI),以增强LLM4AD的使用。我们相信,该平台将成为促进LLM辅助算法设计这一新兴研究方向未来发展的宝贵工具。
  • [论文翻译]Visual-RFT: 视觉强化微调

    在大型推理模型中的强化微调 (Reinforcement Fine-Tuning, RFT) 如 OpenAI o1 通过对其答案的反馈进行学习,这在微调数据稀缺的应用中尤为有用。最近的开源工作如 DeepSeekR1 表明,带有可验证奖励的强化学习是重现 ol 的一个关键方向。虽然 Rl 风格的模型在语言模型中已取得成功,但其在多模态领域的应用仍未被充分探索。本文介绍了视觉强化微调 (Visual Reinforcement Fine-Tuning, Visual-RFT),进一步扩展了 RFT 在视觉任务中的应用领域。具体而言,Visual-RFT 首先使用大型视觉语言模型 (Large Vision-Language Models, LVLMs) 为每个输入生成包含推理 Token 和最终答案的多个响应,然后使用我们提出的视觉感知可验证奖励函数通过策略优化算法(如 Group Relative Policy Optimization, GRPO)更新模型。我们为不同的感知任务设计了不同的可验证奖励函数,例如用于目标检测的交并比 (Intersection over Union, IoU) 奖励。在细粒度图像分类、少样本目标检测、推理定位以及开放词汇目标检测基准上的实验结果表明,与监督微调 (Supervised Fine-tuning, SFT) 相比,Visual-RFT 具有竞争性的性能和先进的泛化能力。例如,在仅有约 100 个样本的单样本细粒度图像分类中,Visual-RFT 的准确率比基线提高了 24.3%。在少样本目标检测中,Visual-RFT 在 COCO 的双样本设置上比基线高出 21.9,在 LVIS 上高出 15.4。我们的 Visual-RFT 代表了微调 LVLMs 的范式转变,提供了一种数据高效、奖励驱动的方法,增强了领域特定任务的推理和适应能力。
  • [论文翻译]基于装箱配置树的高效在线三维装箱学习

    在线三维装箱问题(3D-BPP)在工业自动化中有着广泛的应用,并且最近引起了广泛的研究兴趣。现有方法通常通过有限的空间离散化分辨率来解决该问题,并且/或者无法很好地处理复杂的实际约束。我们提出通过一种新颖的分层表示——装箱配置树(PCT)——来增强在线3D-BPP的实际适用性。PCT是对装箱状态和动作空间的完整描述,可以支持基于深度强化学习(DRL)的装箱策略学习。装箱动作空间的大小与叶子节点(即候选放置位置)的数量成正比,使得DRL模型即使在连续解空间中也易于训练且表现良好。在训练过程中,PCT基于启发式规则进行扩展,然而,DRL模型学习到的装箱策略比启发式方法更为有效和鲁棒。通过广泛的评估,我们证明了我们的方法优于所有现有的在线BPP方法,并且在整合各种实际约束方面具有广泛的适用性。
  • [论文翻译]1 AgiBot World Colosseo: 一个用于可扩展和智能具身系统的大规模操作平台

    摘要 我们探讨了可扩展的机器人数据如何应对通用机器人操作中的现实世界挑战。通过引入AgiBot World,一个包含五个部署场景中217个任务的超过100万条轨迹的大规模平台,我们实现了数据规模的数量级增长,相较于现有数据集。通过标准化收集流程和人在环验证的加速,AgiBot World保证了高质量和多样化的数据分布。它可以从夹爪扩展到灵巧手和视觉触觉传感器,以获取细粒度技能。基于数据,我们引入了Genie Operator-1 (GO-1),一种新颖的通用策略,利用潜在动作表示最大化数据利用率,展示了随着数据量增加的可预测性能扩展。在我们的数据集上预训练的策略在域内和域外场景中,相比在Open X-Embodiment上训练的策略,平均性能提升了30%。GO-1在现实世界的灵巧和长期任务中表现出色,在复杂任务上成功率超过60%,比之前的RDT方法高出32%。通过开源数据集、工具和模型,我们旨在普及大规模、高质量机器人数据的访问,推动可扩展和通用智能的追求。
  • [论文翻译]Comet: 面向混合专家的细粒度计算-通信重叠

    专家混合 (Mixture-of-experts, MoE) 已被广泛用于将大语言模型扩展到万亿级参数,同时保持固定的计算成本。在分布式场景中开发大型 MoE 模型时,会遇到通信开销过大的问题。在使用流行模型和框架时,MoE 层的设备间通信可能占据整个模型执行时间的 \$47\%\$。因此,现有方法建议将 MoE 层的通信与计算流水线化以实现重叠。然而,这些粗粒度的重叠方案显著降低了计算效率,并且延迟隐藏效果也不理想。
  • [论文翻译]YOLOE: 实时视觉感知

    目标检测与分割在计算机视觉应用中被广泛采用,然而传统的模型如 YOLO 系列虽然高效且准确,但受限于预定义类别,在开放场景中的适应性较差。最近的开放集方法利用文本提示、视觉线索或无提示范式来克服这一问题,但由于高计算需求或部署复杂性,往往在性能与效率之间做出妥协。在本工作中,我们提出了 YOLOE,它将检测与分割整合到单一高效的模型中,支持多样化的开放提示机制,实现了实时“看到任何东西”。对于文本提示,我们提出了可重参数化的区域-文本对齐策略(RepRTA)。它通过可重参数化的轻量级辅助网络优化预训练的文本嵌入,并在零推理和迁移开销的情况下增强视觉-文本对齐。对于视觉提示,我们提出了语义激活的视觉提示编码器(SAVPE)。它采用解耦的语义和激活分支,以最小的复杂度带来改进的视觉嵌入和准确性。对于无提示场景,我们引入了惰性区域-提示对比策略(LRPC)。它利用内置的大词汇量和专用嵌入来识别所有对象,避免了对昂贵语言模型的依赖。大量实验表明,YOLOE 在零样本性能和迁移能力方面表现出色,具有高推理效率和低训练成本。值得注意的是,在 LVIS 上,YOLOE \$\nu\delta{-}S\$ 以 \$3\times\$ 的训练成本减少和 \$I.4\times\$ 的推理加速,超越了 YOLO-Worldv2-S,提升了 \$3.5~A P.\$。在迁移到 COCO 时,YOLOE-v8-L 在封闭集 \$Y O L O\nu\delta\ –L\$ 的基础上实现了 \$O.6A P^{b}\$ 和 0.4 \$A P^{m}\$ 的提升,训练时间减少了近 \$4\times\$。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。
  • [论文翻译]重新审视长尾分布下的对抗训练

    深度神经网络容易受到对抗攻击的影响,通常会导致错误输出。对抗训练已被认为是对抗此类攻击的最有效方法之一。然而,现有的对抗训练技术主要在平衡数据集上进行测试,而现实世界的数据往往呈现长尾分布,这引发了对这些方法在实际场景中有效性的质疑。
  • [论文翻译]MonSter: 融合单目深度与立体视觉释放潜力

    立体匹配从图像对应关系中恢复深度。现有方法难以处理匹配线索有限的病态区域,例如遮挡和无纹理区域。为了解决这个问题,我们提出了 MonSter,这是一种利用单目深度估计和立体匹配互补优势的新方法。MonSter 将单目深度和立体匹配集成到双分支架构中,以迭代地相互改进。基于置信度的指导自适应地选择可靠的立体线索用于单目深度尺度偏移恢复。改进后的单目深度反过来在病态区域有效地引导立体匹配。这种迭代的相互增强使 MonSter 能够将单目深度先验从粗略的对象级结构演变为像素级几何,充分释放立体匹配的潜力。如图 2 所示,MonSter 在五个最常用的排行榜上排名第一 —— SceneFlow、KITTI 2012、KITTI 2015、Middlebury 和 ETH3D。与之前的最佳方法相比,实现了高达 49.5% 的改进(ETH3D 上的 Bad 1.0)。综合分析验证了 MonSter 在病态区域的有效性。在零样本泛化方面,MonSter 在各个领域都显著且持续地超越了最先进的方法。代码公开在:https://github.com/Junda24/MonSter。
  • [论文翻译]重新审视长尾分布下的对抗训练

    本文深入探讨了长尾分布下的对抗训练。通过对先前工作“RoBal”的分析,我们发现仅使用平衡 Softmax 损失 (Balanced Softmax Loss) 即可实现与完整 RoBal 方法相当的性能,同时显著减少训练开销。此外,我们揭示出,与均匀分布类似,长尾分布下的对抗训练也存在鲁棒过拟合问题。为了解决这一问题,我们探索了数据增强作为解决方案,并意外地发现,与平衡数据下的结果不同,数据增强不仅能有效缓解鲁棒过拟合,还能显著提高鲁棒性。我们进一步研究了数据增强提高鲁棒性的原因,并确定这是由于样本多样性的增加。大量实验进一步证实,仅使用数据增强即可显著提高鲁棒性。最后,基于这些发现,我们证明了与 RoBal 相比,BSL 和数据增强的结合在 CIFAR-10-LT 上的 AutoAttack 下使模型鲁棒性提高了 \$+6.66\%\$。我们的代码可在以下网址获取:https://github.com/NISPLab/AT-BSL。
  • [论文翻译]Merlion:时间序列机器学习库

    我们介绍 Merlion1,一个用于时间序列的开源机器学习库。它提供了一个统一的接口,支持单变量和多变量时间序列的异常检测和预测,涵盖了许多常用模型和数据集,并包含标准的预处理/后处理层。Merlion 包含多个模块以提高易用性,包括可视化、异常分数校准(以提高可解释性)、用于超参数调优和模型选择的 AutoML,以及模型集成。Merlion 还提供了一个独特的评估框架,模拟模型在生产环境中的实时部署和重新训练。该库旨在为工程师和研究人员提供一站式解决方案,帮助他们快速开发满足特定时间序列需求的模型,并在多个时间序列数据集上进行基准测试。在本技术报告中,我们重点介绍了 Merlion 的架构和主要功能,并报告了不同基线模型和集成模型的基准测试结果。
  • [论文翻译]从 RAG 到记忆:大语言模型的非参数持续学习

    我们持续获取、组织和利用知识的能力是人类智能的一个关键特征,AI 系统必须接近这一特征才能充分发挥其潜力。鉴于大语言模型 (LLMs) 在持续学习中的挑战,检索增强生成 (RAG) 已成为引入新信息的主要方式。然而,其对向量检索的依赖阻碍了其模拟人类长期记忆的动态和互连性的能力。最近的 RAG 方法通过知识图谱等各种结构增强向量嵌入,以解决其中的一些差距,即意义构建和关联性。然而,它们在更基本的事实记忆任务上的表现远低于标准的 RAG。我们解决了这种意外的退化问题,并提出了 HippoRAG 2,这是一个在事实、意义构建和关联记忆任务上全面优于标准 RAG 的框架。HippoRAG 2 建立在 HippoRAG 中使用的个性化 PageRank 算法的基础上,并通过更深层次的段落整合和更有效的在线使用 LLM 来增强它。这种组合使该 RAG 系统更接近人类长期记忆的有效性,在关联记忆任务上比最先进的嵌入模型提高了 7%,同时还表现出卓越的事实知识和意义构建记忆能力。这项工作为 LLMs 的非参数持续学习铺平了道路。我们的代码和数据将在 https://github.com/OSU-NLP-Group/HippoRAG 发布。
  • [论文翻译]从小时到分钟:无损加速超长序列生成至10万Token

    使用大语言模型生成超长序列变得越来越重要,但仍然是一项非常耗时的任务,特别是对于长达100K Token的序列。虽然存在传统的推测解码方法,但仅仅扩展其生成限制并不能加速过程,反而可能有害。通过深入分析,我们确定了阻碍高效生成的三大挑战:频繁的模型重载、动态键值(KV)管理和重复生成。为了解决这些问题,我们引入了TOKENSWIFT,这是一个旨在显著加速超长序列生成过程,同时保持目标模型固有质量的新框架。实验结果表明,TOKENSWIFT在不同规模(1.5B、7B、8B、14B)和架构(MHA、GQA)的模型上实现了超过\$\mathsfit{3\times}\$的加速。这种加速为超长序列生成节省了数小时的时间,使TOKENSWIFT成为在空前长度上的可扩展且有效的解决方案。代码可在github.com/bigai-nlco/TokenSwift找到。
  • [论文翻译]基于门控卷积的自由形式图像修复

    我们提出了一种生成式图像修复系统,能够通过自由形式的遮罩和引导来完成图像。该系统基于从数百万张图像中学习到的门控卷积,无需额外的标注工作。所提出的门控卷积解决了普通卷积将所有输入像素视为有效像素的问题,通过为每一层中每个空间位置的每个通道提供可学习的动态特征选择机制,推广了部分卷积。此外,由于自由形式的遮罩可能以任何形状出现在图像的任意位置,为单个矩形遮罩设计的全局和局部 GAN 并不适用。因此,我们还提出了一种基于 patch 的 GAN 损失,名为 SN-PatchGAN,通过在密集图像 patch 上应用谱归一化判别器来实现。SN-PatchGAN 在公式上简单,训练快速且稳定。自动图像修复和用户引导扩展的结果表明,我们的系统比之前的方法生成了更高质量且更灵活的结果。我们的系统帮助用户快速移除干扰物体、修改图像布局、清除水印和编辑面部。代码、演示和模型可在以下网址获取
  • [论文翻译]IndexTTS: 一款工业级可控且高效的零样本文本转语音系统

    在此,我们介绍基于XTTS和Tortoise模型的IndexTTS系统,并融入了一些创新改进。具体而言,在中文应用场景中,我们采用了字符与拼音相结合的混合建模策略,从而实现对多音字及长尾字符发音的精确控制。此外,针对声学语音Token的码本利用,我们对向量量化(VQ)与有限标量量化(FSQ)进行了对比分析。为了进一步提升语音克隆的效果与稳定性,我们引入了基于Conformer的语音条件编码器,并将语音解码器替换为BigVGAN2。
  • [论文翻译]HybridFlow: 灵活高效的 RLHF 框架

    基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 在大语言模型 (Large Language Model, LLM) 对齐中被广泛使用。传统的强化学习可以建模为数据流,其中每个节点表示神经网络 (Neural Network, NN) 的计算,每条边表示神经网络之间的数据依赖关系。RLHF 通过将每个节点扩展为分布式的大语言模型训练或生成程序,并将每条边扩展为多对多的组播,使得数据流复杂化。传统的强化学习框架使用单一控制器来执行数据流,同时指导节点内的计算和节点间的通信,这在 RLHF 中可能效率低下,因为分布式节点内计算的控制调度开销较大。现有的 RLHF 系统采用多控制器范式,由于嵌套了分布式计算和数据通信,可能不够灵活。我们提出了 HybridFlow,它以混合方式结合了单控制器和多控制器范式,从而能够灵活地表示并高效地执行 RLHF 数据流。我们精心设计了一组分层 API,将复杂的 RLHF 数据流中的计算和数据依赖关系解耦并封装,从而实现高效的运算编排以实施 RLHF 算法,并灵活地将计算映射到各种设备上。我们进一步设计了一个 3D-Hybrid 引擎,用于在训练和生成阶段之间高效地进行 Actor 模型重分片,实现零内存冗余并显著减少通信开销。我们的实验结果表明,与最先进的基线相比,使用 HybridFlow 运行各种 RLHF 算法时,吞吐量提升了
  • [论文翻译]蒸馏任意深度:蒸馏打造更强大的单目深度估计器

    单目深度估计 (Monocular Depth Estimation, MDE) 旨在从单个 RGB 图像中预测场景深度,并在 3D 场景理解中发挥着关键作用。最近的零样本 MDE 进展利用归一化深度表示和基于蒸馏的学习来提升跨多样场景的泛化能力。然而,当前依赖于全局归一化的深度归一化方法可能会放大噪声伪标签,从而降低蒸馏效果。本文中,我们系统分析了不同深度归一化策略对伪标签蒸馏的影响。基于我们的发现,我们提出了跨上下文蒸馏 (Cross-Context Distillation),该方法整合了全局和局部深度线索以提升伪标签质量。此外,我们引入了一个多教师蒸馏框架,该框架利用了不同深度估计模型的互补优势,从而生成更鲁棒和准确的深度预测。在基准数据集上的大量实验表明,我们的方法在定量和定性上均显著优于现有最先进的方法。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个AI写作智能体社区
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI知识快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理