• [论文翻译]Comet: 面向混合专家的细粒度计算-通信重叠

    专家混合 (Mixture-of-experts, MoE) 已被广泛用于将大语言模型扩展到万亿级参数,同时保持固定的计算成本。在分布式场景中开发大型 MoE 模型时,会遇到通信开销过大的问题。在使用流行模型和框架时,MoE 层的设备间通信可能占据整个模型执行时间的 \$47\%\$。因此,现有方法建议将 MoE 层的通信与计算流水线化以实现重叠。然而,这些粗粒度的重叠方案显著降低了计算效率,并且延迟隐藏效果也不理想。
  • [论文翻译]YOLOE: 实时视觉感知

    目标检测与分割在计算机视觉应用中被广泛采用,然而传统的模型如 YOLO 系列虽然高效且准确,但受限于预定义类别,在开放场景中的适应性较差。最近的开放集方法利用文本提示、视觉线索或无提示范式来克服这一问题,但由于高计算需求或部署复杂性,往往在性能与效率之间做出妥协。在本工作中,我们提出了 YOLOE,它将检测与分割整合到单一高效的模型中,支持多样化的开放提示机制,实现了实时“看到任何东西”。对于文本提示,我们提出了可重参数化的区域-文本对齐策略(RepRTA)。它通过可重参数化的轻量级辅助网络优化预训练的文本嵌入,并在零推理和迁移开销的情况下增强视觉-文本对齐。对于视觉提示,我们提出了语义激活的视觉提示编码器(SAVPE)。它采用解耦的语义和激活分支,以最小的复杂度带来改进的视觉嵌入和准确性。对于无提示场景,我们引入了惰性区域-提示对比策略(LRPC)。它利用内置的大词汇量和专用嵌入来识别所有对象,避免了对昂贵语言模型的依赖。大量实验表明,YOLOE 在零样本性能和迁移能力方面表现出色,具有高推理效率和低训练成本。值得注意的是,在 LVIS 上,YOLOE \$\nu\delta{-}S\$ 以 \$3\times\$ 的训练成本减少和 \$I.4\times\$ 的推理加速,超越了 YOLO-Worldv2-S,提升了 \$3.5~A P.\$。在迁移到 COCO 时,YOLOE-v8-L 在封闭集 \$Y O L O\nu\delta\ –L\$ 的基础上实现了 \$O.6A P^{b}\$ 和 0.4 \$A P^{m}\$ 的提升,训练时间减少了近 \$4\times\$。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。
  • [论文翻译]重新审视长尾分布下的对抗训练

    深度神经网络容易受到对抗攻击的影响,通常会导致错误输出。对抗训练已被认为是对抗此类攻击的最有效方法之一。然而,现有的对抗训练技术主要在平衡数据集上进行测试,而现实世界的数据往往呈现长尾分布,这引发了对这些方法在实际场景中有效性的质疑。
  • [论文翻译]Spark-TTS: 基于大语言模型的高效文本转语音模型,采用单流解耦语音Token

    大语言模型 (LLM) 的最新进展推动了零样本文本到语音 (TTS) 合成的显著进步。然而,现有的基础模型依赖于多阶段处理或复杂架构来预测多个码本,限制了效率和集成灵活性。为了克服这些挑战,我们引入了 SparkTTS,这是一个由 BiCodec 驱动的新系统,BiCodec 是一种单流语音编解码器,将语音分解为两种互补的 Token 类型:用于语言内容的低比特率语义 Token 和用于说话者属性的固定长度全局 Token。这种解耦表示,结合 Qwen2.5 大语言模型和思维链 (CoT) 生成方法,实现了粗粒度控制(例如性别、说话风格)和细粒度调整(例如精确的音高值、说话速率)。为了促进可控 TTS 的研究,我们引入了 VoxBox,这是一个精心策划的 100,000 小时数据集,带有全面的属性注释。大量实验表明,Spark-TTS 不仅实现了最先进的零样本语音克隆,还生成了高度可定制的声音,超越了基于参考的合成的限制。源代码、预训练模型和音频样本可在 https://github.com/SparkAudio/Spark-TTS 获取。
  • [论文翻译]MonSter: 融合单目深度与立体视觉释放潜力

    立体匹配从图像对应关系中恢复深度。现有方法难以处理匹配线索有限的病态区域,例如遮挡和无纹理区域。为了解决这个问题,我们提出了 MonSter,这是一种利用单目深度估计和立体匹配互补优势的新方法。MonSter 将单目深度和立体匹配集成到双分支架构中,以迭代地相互改进。基于置信度的指导自适应地选择可靠的立体线索用于单目深度尺度偏移恢复。改进后的单目深度反过来在病态区域有效地引导立体匹配。这种迭代的相互增强使 MonSter 能够将单目深度先验从粗略的对象级结构演变为像素级几何,充分释放立体匹配的潜力。如图 2 所示,MonSter 在五个最常用的排行榜上排名第一 —— SceneFlow、KITTI 2012、KITTI 2015、Middlebury 和 ETH3D。与之前的最佳方法相比,实现了高达 49.5% 的改进(ETH3D 上的 Bad 1.0)。综合分析验证了 MonSter 在病态区域的有效性。在零样本泛化方面,MonSter 在各个领域都显著且持续地超越了最先进的方法。代码公开在:https://github.com/Junda24/MonSter。
  • [论文翻译]重构 vs 生成:化解潜在扩散模型中的优化困境

    基于 Transformer 架构的潜在扩散模型在生成高保真图像方面表现出色。然而,最近的研究揭示了这种两阶段设计中的一个优化困境:虽然在视觉 Tokenizer 中增加每个 Token 的特征维度可以提高重建质量,但它需要更大的扩散模型和更多的训练迭代才能实现相当的生成性能。因此,现有系统通常采用次优解决方案,要么由于 Tokenizer 内的信息丢失而产生视觉伪影,要么由于昂贵的计算成本而无法完全收敛。我们认为,这种困境源于学习无约束高维潜在空间的固有难度。为了解决这个问题,我们建议在训练视觉 Tokenizer 时,将潜在空间与预训练的视觉基础模型对齐。我们提出的 VA-VAE (Vision foundation model Aligned Variational Auto Encoder) 显著扩展了潜在扩散模型的重建-生成边界,使得 Diffusion Transformers (DiT) 在高维潜在空间中能够更快地收敛。为了充分发挥 VA-VAE 的潜力,我们构建了一个增强的 DiT 基线,改进了训练策略和架构设计,称为 Lightning DiT。集成系统在 ImageNet \$256\times256\$ 生成任务上实现了最先进的 (SOTA) 性能,FID 得分为 1.35,同时在仅 64 个 epoch 内达到了 2.11 的 FID 得分,展示了显著的训练效率——与原始 DiT 相比,收敛速度提高了超过 \$2l\times\$。模型和代码可在 https://github.com/hustvl/Lightning DiT 获取。
  • [论文翻译]重新审视长尾分布下的对抗训练

    本文深入探讨了长尾分布下的对抗训练。通过对先前工作“RoBal”的分析,我们发现仅使用平衡 Softmax 损失 (Balanced Softmax Loss) 即可实现与完整 RoBal 方法相当的性能,同时显著减少训练开销。此外,我们揭示出,与均匀分布类似,长尾分布下的对抗训练也存在鲁棒过拟合问题。为了解决这一问题,我们探索了数据增强作为解决方案,并意外地发现,与平衡数据下的结果不同,数据增强不仅能有效缓解鲁棒过拟合,还能显著提高鲁棒性。我们进一步研究了数据增强提高鲁棒性的原因,并确定这是由于样本多样性的增加。大量实验进一步证实,仅使用数据增强即可显著提高鲁棒性。最后,基于这些发现,我们证明了与 RoBal 相比,BSL 和数据增强的结合在 CIFAR-10-LT 上的 AutoAttack 下使模型鲁棒性提高了 \$+6.66\%\$。我们的代码可在以下网址获取:https://github.com/NISPLab/AT-BSL。
  • [论文翻译]Pandora3D: 高质量3D形状与纹理生成的综合框架

    本报告提出了一个从多样化输入提示(包括单张图像、多视角图像和文本描述)生成高质量3D形状和纹理的综合框架。该框架包括3D形状生成和纹理生成两部分。(1) 3D形状生成流程采用变分自编码器 (VAE) 将隐式3D几何编码到潜在空间中,并使用扩散网络生成基于输入提示的潜在表示,同时通过修改增强了模型容量。此外,还探索了一种替代的艺术家创建网格 (AM) 生成方法,在简单几何体上取得了良好的效果。(2) 纹理生成涉及多阶段过程,首先生成正面图像,然后生成多视角图像,进行RGB到PBR纹理转换,并进行高分辨率多视角纹理优化。在每个阶段都引入了一致性调度器,以确保推理过程中多视角纹理之间的像素级一致性,从而实现无缝集成。
  • [论文翻译]Merlion:时间序列机器学习库

    我们介绍 Merlion1,一个用于时间序列的开源机器学习库。它提供了一个统一的接口,支持单变量和多变量时间序列的异常检测和预测,涵盖了许多常用模型和数据集,并包含标准的预处理/后处理层。Merlion 包含多个模块以提高易用性,包括可视化、异常分数校准(以提高可解释性)、用于超参数调优和模型选择的 AutoML,以及模型集成。Merlion 还提供了一个独特的评估框架,模拟模型在生产环境中的实时部署和重新训练。该库旨在为工程师和研究人员提供一站式解决方案,帮助他们快速开发满足特定时间序列需求的模型,并在多个时间序列数据集上进行基准测试。在本技术报告中,我们重点介绍了 Merlion 的架构和主要功能,并报告了不同基线模型和集成模型的基准测试结果。
  • [论文翻译]从 RAG 到记忆:大语言模型的非参数持续学习

    我们持续获取、组织和利用知识的能力是人类智能的一个关键特征,AI 系统必须接近这一特征才能充分发挥其潜力。鉴于大语言模型 (LLMs) 在持续学习中的挑战,检索增强生成 (RAG) 已成为引入新信息的主要方式。然而,其对向量检索的依赖阻碍了其模拟人类长期记忆的动态和互连性的能力。最近的 RAG 方法通过知识图谱等各种结构增强向量嵌入,以解决其中的一些差距,即意义构建和关联性。然而,它们在更基本的事实记忆任务上的表现远低于标准的 RAG。我们解决了这种意外的退化问题,并提出了 HippoRAG 2,这是一个在事实、意义构建和关联记忆任务上全面优于标准 RAG 的框架。HippoRAG 2 建立在 HippoRAG 中使用的个性化 PageRank 算法的基础上,并通过更深层次的段落整合和更有效的在线使用 LLM 来增强它。这种组合使该 RAG 系统更接近人类长期记忆的有效性,在关联记忆任务上比最先进的嵌入模型提高了 7%,同时还表现出卓越的事实知识和意义构建记忆能力。这项工作为 LLMs 的非参数持续学习铺平了道路。我们的代码和数据将在 https://github.com/OSU-NLP-Group/HippoRAG 发布。
  • [论文翻译]shapiq: 机器学习中的Shapley交互作用

    最初源于博弈论的 Shapley 值 (SV) 最近已成为机器学习研究中的重要工具。最值得注意的是,它被用于可解释人工智能中的特征归因和数据估值。Shapley 交互 (SIs) 自然地扩展了 SV 并通过将联合贡献分配给实体组来解决其局限性,从而增强对黑盒机器学习模型的理解。由于计算 SV 和 SI 的指数复杂性,已经提出了各种方法,这些方法利用结构假设或在资源有限的情况下产生概率估计。在这项工作中,我们介绍了 shapiq,这是一个开源 Python 包,它在一个与应用无关的框架中统一了最先进的算法,以高效计算 SV 和任何阶的 SI。此外,它包括一个基准测试套件,其中包含 11 个 SI 的机器学习应用,带有预计算的游戏和真实值,以系统地评估跨领域的计算性能。对于从业者来说,shapiq 能够解释和可视化预测模型中任何阶的特征交互,包括视觉 Transformer、语言模型,以及使用 TreeSHAP-IQ 的 XGBoost 和 LightGBM。通过 shapiq,我们扩展了 shap 的功能,超越了特征归因,并巩固了 SV 和 SI 在机器学习中的应用,促进了未来的研究。源代码和文档可在 https://github.com/mmschlk/shapiq 获取。
  • [论文翻译]ViDoRAG: 基于动态迭代推理AI智能体的视觉文档检索增强生成

    理解视觉丰富文档中的信息对于传统的检索增强生成 (Retrieval-Augmented Generation, RAG) 方法仍然是一个重大挑战。现有的基准测试主要集中在基于图像的问答 (QA) 上,忽视了在密集视觉文档中进行高效检索、理解和推理的基本挑战。为了弥补这一差距,我们引入了 ViDoSeek,这是一个旨在评估 RAG 在需要复杂推理的视觉丰富文档上的性能的新数据集。基于此,我们识别了当前 RAG 方法的关键局限性:(i) 纯视觉检索方法难以有效整合文本和视觉特征,(ii) 先前的方法通常分配不足的推理 Token,限制了其有效性。为了解决这些挑战,我们提出了 ViDoRAG,这是一个专为跨视觉文档的复杂推理而设计的新型多智能体 RAG 框架。ViDoRAG 采用基于高斯混合模型 (Gaussian Mixture Model, GMM) 的混合策略,有效处理多模态检索。为了进一步激发模型的推理能力,我们引入了一个迭代的智能体工作流程,结合探索、总结和反思,为研究 RAG 领域的测试时扩展提供了一个框架。在 ViDoSeek 上的大量实验验证了我们方法的有效性和泛化能力。值得注意的是,ViDoRAG 在竞争性 ViDoSeek 基准测试中比现有方法高出超过 10%。
  • [论文翻译]A-MEM:面向大语言模型智能体的记忆系统

    尽管大语言模型 (LLM) 智能体能够有效利用外部工具处理复杂的现实任务,但它们需要记忆系统来利用历史经验。当前的记忆系统能够实现基本的存储和检索,但缺乏复杂的记忆组织,尽管最近尝试引入图数据库。此外,这些系统的固定操作和结构限制了它们在不同任务中的适应性。为了解决这一限制,本文提出了一种新颖的 LLM 智能体记忆系统,能够以智能体的方式动态组织记忆。遵循 Zettelkasten 方法的基本原则,我们设计了记忆系统,通过动态索引和链接创建相互关联的知识网络。当添加新记忆时,我们生成一个包含多个结构化属性的详细笔记,包括上下文描述、关键词和标签。系统随后分析历史记忆以识别相关连接,在有意义的相似性存在时建立链接。此外,这一过程还实现了记忆的演化——随着新记忆的整合,它们可能触发对现有历史记忆的上下文表示和属性的更新,从而使记忆网络能够不断完善其理解。我们的方法结合了 Zettelkasten 的结构化组织原则和智能体驱动决策的灵活性,实现了更具适应性和上下文感知的记忆管理。在六个基础模型上的实证实验显示,相较于现有的 SOTA 基线,性能有显著提升。性能评估的源代码可在 https://github.com/WujiangXu/AgenticMemory 获取,而记忆系统的源代码可在 https://github.com/agiresearch/A-mem 获取。
  • [论文翻译]用于马尔可夫大语言模型测试时间扩展的思维原子

    大语言模型 (LLMs) 通过训练时的扩展获得卓越的性能,而测试时的扩展通过在推理过程中进行有效推理进一步增强了它们的能力。然而,随着推理规模的增加,现有的测试时扩展方法受到累积历史信息的影响,这不仅浪费了计算资源,还干扰了有效的推理。为了解决这个问题,我们观察到复杂的推理过程通常通过解决一系列独立的子问题来实现,每个子问题都是自包含且可验证的。这些子问题本质上是原子问题,主要依赖于它们当前的状态而不是累积的历史,类似于马尔可夫过程中的无记忆转移。基于这一观察,我们提出了 Atom of Thoughts (AOT) ,其中推理过程中的每个状态转移包括将当前问题分解为基于依赖的有向无环图,并收缩其子问题,形成一个新的原子问题状态。这种迭代的分解-收缩过程持续进行,直到达到可直接解决的原子问题,自然而然地实现了问题状态之间的马尔可夫转移。此外,这些原子问题可以无缝集成到现有的测试时扩展方法中,使 AOT 成为一个提升推理能力的插件增强。在六个基准测试上的实验证明了 AOT 作为独立框架和插件增强的有效性。值得注意的是,在 HotpotQA 上,当应用于 gpt-4omini 时,AOT 实现了 80.6% 的 F1 分数,超过了 o3-mini 的 3.4% 和 DeepSeek-R1 的 10.6%。代码将在 https://github.com/qixucen/atom 上提供。
  • [论文翻译]重新审视长尾分布下的对抗训练

    深度神经网络容易受到对抗攻击,往往导致错误输出。对抗训练已被认为是对抗此类攻击的最有效方法之一。然而,现有的对抗训练技术主要是在平衡数据集上进行测试,而现实世界的数据往往呈现出长尾分布,这让人怀疑这些方法在实际场景中的有效性。
  • [论文翻译]基于门控卷积的自由形式图像修复

    我们提出了一种生成式图像修复系统,能够通过自由形式的遮罩和引导来完成图像。该系统基于从数百万张图像中学习到的门控卷积,无需额外的标注工作。所提出的门控卷积解决了普通卷积将所有输入像素视为有效像素的问题,通过为每一层中每个空间位置的每个通道提供可学习的动态特征选择机制,推广了部分卷积。此外,由于自由形式的遮罩可能以任何形状出现在图像的任意位置,为单个矩形遮罩设计的全局和局部 GAN 并不适用。因此,我们还提出了一种基于 patch 的 GAN 损失,名为 SN-PatchGAN,通过在密集图像 patch 上应用谱归一化判别器来实现。SN-PatchGAN 在公式上简单,训练快速且稳定。自动图像修复和用户引导扩展的结果表明,我们的系统比之前的方法生成了更高质量且更灵活的结果。我们的系统帮助用户快速移除干扰物体、修改图像布局、清除水印和编辑面部。代码、演示和模型可在以下网址获取
  • [论文翻译]IndexTTS: 一款工业级可控且高效的零样本文本转语音系统

    在此,我们介绍基于XTTS和Tortoise模型的IndexTTS系统,并融入了一些创新改进。具体而言,在中文应用场景中,我们采用了字符与拼音相结合的混合建模策略,从而实现对多音字及长尾字符发音的精确控制。此外,针对声学语音Token的码本利用,我们对向量量化(VQ)与有限标量量化(FSQ)进行了对比分析。为了进一步提升语音克隆的效果与稳定性,我们引入了基于Conformer的语音条件编码器,并将语音解码器替换为BigVGAN2。
  • [论文翻译]HybridFlow: 灵活高效的 RLHF 框架

    基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 在大语言模型 (Large Language Model, LLM) 对齐中被广泛使用。传统的强化学习可以建模为数据流,其中每个节点表示神经网络 (Neural Network, NN) 的计算,每条边表示神经网络之间的数据依赖关系。RLHF 通过将每个节点扩展为分布式的大语言模型训练或生成程序,并将每条边扩展为多对多的组播,使得数据流复杂化。传统的强化学习框架使用单一控制器来执行数据流,同时指导节点内的计算和节点间的通信,这在 RLHF 中可能效率低下,因为分布式节点内计算的控制调度开销较大。现有的 RLHF 系统采用多控制器范式,由于嵌套了分布式计算和数据通信,可能不够灵活。我们提出了 HybridFlow,它以混合方式结合了单控制器和多控制器范式,从而能够灵活地表示并高效地执行 RLHF 数据流。我们精心设计了一组分层 API,将复杂的 RLHF 数据流中的计算和数据依赖关系解耦并封装,从而实现高效的运算编排以实施 RLHF 算法,并灵活地将计算映射到各种设备上。我们进一步设计了一个 3D-Hybrid 引擎,用于在训练和生成阶段之间高效地进行 Actor 模型重分片,实现零内存冗余并显著减少通信开销。我们的实验结果表明,与最先进的基线相比,使用 HybridFlow 运行各种 RLHF 算法时,吞吐量提升了
  • [论文翻译]蒸馏任意深度:蒸馏打造更强大的单目深度估计器

    单目深度估计 (Monocular Depth Estimation, MDE) 旨在从单个 RGB 图像中预测场景深度,并在 3D 场景理解中发挥着关键作用。最近的零样本 MDE 进展利用归一化深度表示和基于蒸馏的学习来提升跨多样场景的泛化能力。然而,当前依赖于全局归一化的深度归一化方法可能会放大噪声伪标签,从而降低蒸馏效果。本文中,我们系统分析了不同深度归一化策略对伪标签蒸馏的影响。基于我们的发现,我们提出了跨上下文蒸馏 (Cross-Context Distillation),该方法整合了全局和局部深度线索以提升伪标签质量。此外,我们引入了一个多教师蒸馏框架,该框架利用了不同深度估计模型的互补优势,从而生成更鲁棒和准确的深度预测。在基准数据集上的大量实验表明,我们的方法在定量和定性上均显著优于现有最先进的方法。
  • [论文翻译]PIKE-RAG: 专业化知识和推理增强生成

    尽管检索增强生成(Retrieval-Augmented Generation, RAG)系统通过外部检索扩展了大语言模型(LLM)的能力,并取得了显著进展,但这些系统往往难以满足现实工业应用中复杂多样的需求。仅依赖检索被证明不足以从专业语料库中提取深层次的领域知识并进行逻辑推理。为此,我们提出了sPecIalized KnowledgE and Rationale Augmentation Generation (PIKE-RAG),专注于提取、理解和应用专门知识,同时构建连贯的推理过程,逐步引导LLM生成准确的响应。认识到工业任务的多样化挑战,我们引入了一种新范式,基于知识提取和应用的复杂性对任务进行分类,从而系统评估RAG系统解决问题的能力。这一战略方法为RAG系统的分阶段开发和增强提供了路线图,以适应工业应用不断变化的需求。此外,我们提出了知识原子化和知识感知的任务分解方法,分别基于原始查询和累积的知识,有效地从数据块中提取多方面的知识,并迭代地构建推理过程,在各种基准测试中展示了卓越的性能。代码已公开在https://github.com/microsoft/PIKE-RAG。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个AI写作智能体社区
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI知识快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理