• [论文翻译]Comet: 面向混合专家的细粒度计算-通信重叠

    专家混合 (Mixture-of-experts, MoE) 已被广泛用于将大语言模型扩展到万亿级参数,同时保持固定的计算成本。在分布式场景中开发大型 MoE 模型时,会遇到通信开销过大的问题。在使用流行模型和框架时,MoE 层的设备间通信可能占据整个模型执行时间的 \$47\%\$。因此,现有方法建议将 MoE 层的通信与计算流水线化以实现重叠。然而,这些粗粒度的重叠方案显著降低了计算效率,并且延迟隐藏效果也不理想。
  • [论文翻译]YOLOE: 实时视觉感知

    目标检测与分割在计算机视觉应用中被广泛采用,然而传统的模型如 YOLO 系列虽然高效且准确,但受限于预定义类别,在开放场景中的适应性较差。最近的开放集方法利用文本提示、视觉线索或无提示范式来克服这一问题,但由于高计算需求或部署复杂性,往往在性能与效率之间做出妥协。在本工作中,我们提出了 YOLOE,它将检测与分割整合到单一高效的模型中,支持多样化的开放提示机制,实现了实时“看到任何东西”。对于文本提示,我们提出了可重参数化的区域-文本对齐策略(RepRTA)。它通过可重参数化的轻量级辅助网络优化预训练的文本嵌入,并在零推理和迁移开销的情况下增强视觉-文本对齐。对于视觉提示,我们提出了语义激活的视觉提示编码器(SAVPE)。它采用解耦的语义和激活分支,以最小的复杂度带来改进的视觉嵌入和准确性。对于无提示场景,我们引入了惰性区域-提示对比策略(LRPC)。它利用内置的大词汇量和专用嵌入来识别所有对象,避免了对昂贵语言模型的依赖。大量实验表明,YOLOE 在零样本性能和迁移能力方面表现出色,具有高推理效率和低训练成本。值得注意的是,在 LVIS 上,YOLOE \$\nu\delta{-}S\$ 以 \$3\times\$ 的训练成本减少和 \$I.4\times\$ 的推理加速,超越了 YOLO-Worldv2-S,提升了 \$3.5~A P.\$。在迁移到 COCO 时,YOLOE-v8-L 在封闭集 \$Y O L O\nu\delta\ –L\$ 的基础上实现了 \$O.6A P^{b}\$ 和 0.4 \$A P^{m}\$ 的提升,训练时间减少了近 \$4\times\$。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。
  • [论文翻译]重新审视长尾分布下的对抗训练

    深度神经网络容易受到对抗攻击的影响,通常会导致错误输出。对抗训练已被认为是对抗此类攻击的最有效方法之一。然而,现有的对抗训练技术主要在平衡数据集上进行测试,而现实世界的数据往往呈现长尾分布,这引发了对这些方法在实际场景中有效性的质疑。
  • [论文翻译]MonSter: 融合单目深度与立体视觉释放潜力

    立体匹配从图像对应关系中恢复深度。现有方法难以处理匹配线索有限的病态区域,例如遮挡和无纹理区域。为了解决这个问题,我们提出了 MonSter,这是一种利用单目深度估计和立体匹配互补优势的新方法。MonSter 将单目深度和立体匹配集成到双分支架构中,以迭代地相互改进。基于置信度的指导自适应地选择可靠的立体线索用于单目深度尺度偏移恢复。改进后的单目深度反过来在病态区域有效地引导立体匹配。这种迭代的相互增强使 MonSter 能够将单目深度先验从粗略的对象级结构演变为像素级几何,充分释放立体匹配的潜力。如图 2 所示,MonSter 在五个最常用的排行榜上排名第一 —— SceneFlow、KITTI 2012、KITTI 2015、Middlebury 和 ETH3D。与之前的最佳方法相比,实现了高达 49.5% 的改进(ETH3D 上的 Bad 1.0)。综合分析验证了 MonSter 在病态区域的有效性。在零样本泛化方面,MonSter 在各个领域都显著且持续地超越了最先进的方法。代码公开在:https://github.com/Junda24/MonSter。
  • [论文翻译]重新审视长尾分布下的对抗训练

    本文深入探讨了长尾分布下的对抗训练。通过对先前工作“RoBal”的分析,我们发现仅使用平衡 Softmax 损失 (Balanced Softmax Loss) 即可实现与完整 RoBal 方法相当的性能,同时显著减少训练开销。此外,我们揭示出,与均匀分布类似,长尾分布下的对抗训练也存在鲁棒过拟合问题。为了解决这一问题,我们探索了数据增强作为解决方案,并意外地发现,与平衡数据下的结果不同,数据增强不仅能有效缓解鲁棒过拟合,还能显著提高鲁棒性。我们进一步研究了数据增强提高鲁棒性的原因,并确定这是由于样本多样性的增加。大量实验进一步证实,仅使用数据增强即可显著提高鲁棒性。最后,基于这些发现,我们证明了与 RoBal 相比,BSL 和数据增强的结合在 CIFAR-10-LT 上的 AutoAttack 下使模型鲁棒性提高了 \$+6.66\%\$。我们的代码可在以下网址获取:https://github.com/NISPLab/AT-BSL。
  • [论文翻译]Merlion:时间序列机器学习库

    我们介绍 Merlion1,一个用于时间序列的开源机器学习库。它提供了一个统一的接口,支持单变量和多变量时间序列的异常检测和预测,涵盖了许多常用模型和数据集,并包含标准的预处理/后处理层。Merlion 包含多个模块以提高易用性,包括可视化、异常分数校准(以提高可解释性)、用于超参数调优和模型选择的 AutoML,以及模型集成。Merlion 还提供了一个独特的评估框架,模拟模型在生产环境中的实时部署和重新训练。该库旨在为工程师和研究人员提供一站式解决方案,帮助他们快速开发满足特定时间序列需求的模型,并在多个时间序列数据集上进行基准测试。在本技术报告中,我们重点介绍了 Merlion 的架构和主要功能,并报告了不同基线模型和集成模型的基准测试结果。
  • [论文翻译]从 RAG 到记忆:大语言模型的非参数持续学习

    我们持续获取、组织和利用知识的能力是人类智能的一个关键特征,AI 系统必须接近这一特征才能充分发挥其潜力。鉴于大语言模型 (LLMs) 在持续学习中的挑战,检索增强生成 (RAG) 已成为引入新信息的主要方式。然而,其对向量检索的依赖阻碍了其模拟人类长期记忆的动态和互连性的能力。最近的 RAG 方法通过知识图谱等各种结构增强向量嵌入,以解决其中的一些差距,即意义构建和关联性。然而,它们在更基本的事实记忆任务上的表现远低于标准的 RAG。我们解决了这种意外的退化问题,并提出了 HippoRAG 2,这是一个在事实、意义构建和关联记忆任务上全面优于标准 RAG 的框架。HippoRAG 2 建立在 HippoRAG 中使用的个性化 PageRank 算法的基础上,并通过更深层次的段落整合和更有效的在线使用 LLM 来增强它。这种组合使该 RAG 系统更接近人类长期记忆的有效性,在关联记忆任务上比最先进的嵌入模型提高了 7%,同时还表现出卓越的事实知识和意义构建记忆能力。这项工作为 LLMs 的非参数持续学习铺平了道路。我们的代码和数据将在 https://github.com/OSU-NLP-Group/HippoRAG 发布。
  • [论文翻译]从小时到分钟:无损加速超长序列生成至10万Token

    使用大语言模型生成超长序列变得越来越重要,但仍然是一项非常耗时的任务,特别是对于长达100K Token的序列。虽然存在传统的推测解码方法,但仅仅扩展其生成限制并不能加速过程,反而可能有害。通过深入分析,我们确定了阻碍高效生成的三大挑战:频繁的模型重载、动态键值(KV)管理和重复生成。为了解决这些问题,我们引入了TOKENSWIFT,这是一个旨在显著加速超长序列生成过程,同时保持目标模型固有质量的新框架。实验结果表明,TOKENSWIFT在不同规模(1.5B、7B、8B、14B)和架构(MHA、GQA)的模型上实现了超过\$\mathsfit{3\times}\$的加速。这种加速为超长序列生成节省了数小时的时间,使TOKENSWIFT成为在空前长度上的可扩展且有效的解决方案。代码可在github.com/bigai-nlco/TokenSwift找到。
  • [论文翻译]基于门控卷积的自由形式图像修复

    我们提出了一种生成式图像修复系统,能够通过自由形式的遮罩和引导来完成图像。该系统基于从数百万张图像中学习到的门控卷积,无需额外的标注工作。所提出的门控卷积解决了普通卷积将所有输入像素视为有效像素的问题,通过为每一层中每个空间位置的每个通道提供可学习的动态特征选择机制,推广了部分卷积。此外,由于自由形式的遮罩可能以任何形状出现在图像的任意位置,为单个矩形遮罩设计的全局和局部 GAN 并不适用。因此,我们还提出了一种基于 patch 的 GAN 损失,名为 SN-PatchGAN,通过在密集图像 patch 上应用谱归一化判别器来实现。SN-PatchGAN 在公式上简单,训练快速且稳定。自动图像修复和用户引导扩展的结果表明,我们的系统比之前的方法生成了更高质量且更灵活的结果。我们的系统帮助用户快速移除干扰物体、修改图像布局、清除水印和编辑面部。代码、演示和模型可在以下网址获取
  • [论文翻译]IndexTTS: 一款工业级可控且高效的零样本文本转语音系统

    在此,我们介绍基于XTTS和Tortoise模型的IndexTTS系统,并融入了一些创新改进。具体而言,在中文应用场景中,我们采用了字符与拼音相结合的混合建模策略,从而实现对多音字及长尾字符发音的精确控制。此外,针对声学语音Token的码本利用,我们对向量量化(VQ)与有限标量量化(FSQ)进行了对比分析。为了进一步提升语音克隆的效果与稳定性,我们引入了基于Conformer的语音条件编码器,并将语音解码器替换为BigVGAN2。
  • [论文翻译]HybridFlow: 灵活高效的 RLHF 框架

    基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 在大语言模型 (Large Language Model, LLM) 对齐中被广泛使用。传统的强化学习可以建模为数据流,其中每个节点表示神经网络 (Neural Network, NN) 的计算,每条边表示神经网络之间的数据依赖关系。RLHF 通过将每个节点扩展为分布式的大语言模型训练或生成程序,并将每条边扩展为多对多的组播,使得数据流复杂化。传统的强化学习框架使用单一控制器来执行数据流,同时指导节点内的计算和节点间的通信,这在 RLHF 中可能效率低下,因为分布式节点内计算的控制调度开销较大。现有的 RLHF 系统采用多控制器范式,由于嵌套了分布式计算和数据通信,可能不够灵活。我们提出了 HybridFlow,它以混合方式结合了单控制器和多控制器范式,从而能够灵活地表示并高效地执行 RLHF 数据流。我们精心设计了一组分层 API,将复杂的 RLHF 数据流中的计算和数据依赖关系解耦并封装,从而实现高效的运算编排以实施 RLHF 算法,并灵活地将计算映射到各种设备上。我们进一步设计了一个 3D-Hybrid 引擎,用于在训练和生成阶段之间高效地进行 Actor 模型重分片,实现零内存冗余并显著减少通信开销。我们的实验结果表明,与最先进的基线相比,使用 HybridFlow 运行各种 RLHF 算法时,吞吐量提升了
  • [论文翻译]蒸馏任意深度:蒸馏打造更强大的单目深度估计器

    单目深度估计 (Monocular Depth Estimation, MDE) 旨在从单个 RGB 图像中预测场景深度,并在 3D 场景理解中发挥着关键作用。最近的零样本 MDE 进展利用归一化深度表示和基于蒸馏的学习来提升跨多样场景的泛化能力。然而,当前依赖于全局归一化的深度归一化方法可能会放大噪声伪标签,从而降低蒸馏效果。本文中,我们系统分析了不同深度归一化策略对伪标签蒸馏的影响。基于我们的发现,我们提出了跨上下文蒸馏 (Cross-Context Distillation),该方法整合了全局和局部深度线索以提升伪标签质量。此外,我们引入了一个多教师蒸馏框架,该框架利用了不同深度估计模型的互补优势,从而生成更鲁棒和准确的深度预测。在基准数据集上的大量实验表明,我们的方法在定量和定性上均显著优于现有最先进的方法。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个AI写作智能体社区
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI知识快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理