模型 - 文章 | AI千集

[论文翻译]VGGT: 视觉几何基础 Transformer

我们提出了 VGGT，这是一种前馈神经网络，能够从一个、几个或数百个场景视图中直接推断出场景的所有关键 3D 属性，包括相机参数、点图、深度图和 3D 点轨迹。这种方法在 3D 计算机视觉领域迈出了一步，因为传统模型通常局限于单一任务并专门针对单一任务。VGGT 简单且高效，能够在一秒内重建图像，并且在不需要视觉几何优化技术后处理的情况下，仍然优于其他替代方案。该网络在多个 3D 任务中取得了最先进的结果，包括相机参数估计、多视图深度估计、密集点云重建和 3D 点跟踪。我们还展示了使用预训练的 VGGT 作为特征骨干可以显著增强下游任务，例如非刚性点跟踪和前馈新视图合成。代码和模型已在 https://github.com/facebookresearch/vggt 公开。

由 shadow发布于 2025-03-19 15:53:42 深度图模型大型语言模型阅读次数 1523
[论文翻译]Comet: 专家混合模型中的细粒度计算-通信重叠

专家混合 (Mixture-of-experts, MoE) 已被广泛用于将大语言模型扩展到万亿级参数，同时保持固定的计算成本。在分布式场景中开发大型 MoE 模型时，会遇到通信开销大的问题。在流行的模型和框架中，MoE 层的设备间通信可能占据整个模型执行时间的 \$47\%\$。因此，现有方法建议将 MoE 层的通信与计算进行流水线化以实现重叠。然而，这些粗粒度的重叠方案会显著降低计算效率，并且延迟隐藏效果并不理想。

由 shadow发布于 2025-03-17 15:10:42 大语言模型语言模型模型阅读次数 807
[论文翻译]YOLOE: 实时视觉感知

目标检测与分割在计算机视觉应用中被广泛采用，然而传统的模型如 YOLO 系列虽然高效且准确，但受限于预定义类别，在开放场景中的适应性较差。最近的开放集方法利用文本提示、视觉线索或无提示范式来克服这一问题，但由于高计算需求或部署复杂性，往往在性能与效率之间做出妥协。在本工作中，我们提出了 YOLOE，它将检测与分割整合到单一高效的模型中，支持多样化的开放提示机制，实现了实时“看到任何东西”。对于文本提示，我们提出了可重参数化的区域-文本对齐策略（RepRTA）。它通过可重参数化的轻量级辅助网络优化预训练的文本嵌入，并在零推理和迁移开销的情况下增强视觉-文本对齐。对于视觉提示，我们提出了语义激活的视觉提示编码器（SAVPE）。它采用解耦的语义和激活分支，以最小的复杂度带来改进的视觉嵌入和准确性。对于无提示场景，我们引入了惰性区域-提示对比策略（LRPC）。它利用内置的大词汇量和专用嵌入来识别所有对象，避免了对昂贵语言模型的依赖。大量实验表明，YOLOE 在零样本性能和迁移能力方面表现出色，具有高推理效率和低训练成本。值得注意的是，在 LVIS 上，YOLOE \$\nu\delta{-}S\$ 以 \$3\times\$ 的训练成本减少和 \$I.4\times\$ 的推理加速，超越了 YOLO-Worldv2-S，提升了 \$3.5~A P.\$。在迁移到 COCO 时，YOLOE-v8-L 在封闭集 \$Y O L O\nu\delta\ –L\$ 的基础上实现了 \$O.6A P^{b}\$ 和 0.4 \$A P^{m}\$ 的提升，训练时间减少了近 \$4\times\$。代码和模型可在 https://github.com/THU-MIG/yoloe 获取。

由 shadow发布于 2025-03-14 09:34:32 大模型AI知识模型阅读次数 783
[论文翻译]重构 vs 生成：化解潜在扩散模型中的优化困境

基于 Transformer 架构的潜在扩散模型在生成高保真图像方面表现出色。然而，最近的研究揭示了这种两阶段设计中的一个优化困境：虽然在视觉 Tokenizer 中增加每个 Token 的特征维度可以提高重建质量，但它需要更大的扩散模型和更多的训练迭代才能实现相当的生成性能。因此，现有系统通常采用次优解决方案，要么由于 Tokenizer 内的信息丢失而产生视觉伪影，要么由于昂贵的计算成本而无法完全收敛。我们认为，这种困境源于学习无约束高维潜在空间的固有难度。为了解决这个问题，我们建议在训练视觉 Tokenizer 时，将潜在空间与预训练的视觉基础模型对齐。我们提出的 VA-VAE (Vision foundation model Aligned Variational Auto Encoder) 显著扩展了潜在扩散模型的重建-生成边界，使得 Diffusion Transformers (DiT) 在高维潜在空间中能够更快地收敛。为了充分发挥 VA-VAE 的潜力，我们构建了一个增强的 DiT 基线，改进了训练策略和架构设计，称为 Lightning DiT。集成系统在 ImageNet \$256\times256\$ 生成任务上实现了最先进的 (SOTA) 性能，FID 得分为 1.35，同时在仅 64 个 epoch 内达到了 2.11 的 FID 得分，展示了显著的训练效率——与原始 DiT 相比，收敛速度提高了超过 \$2l\times\$。模型和代码可在 https://github.com/hustvl/Lightning DiT 获取。

由 shadow发布于 2025-03-12 10:31:41 扩散模型大模型模型阅读次数 844
[博客翻译]大型语言扩散模型

我们认为，大型语言模型（LLM）所展现的智能——包括可扩展性、指令遵循能力、上下文学习能力、对话能力和压缩能力——并非源于自回归机制本身，而是源于生成建模的核心原则：通过最大似然估计近似真实的语言分布。

由 openoker发布于 2025-02-20 23:11:15 模型参数扩散生成可扩展性阅读次数 751
[博客翻译]超越GPT-4的Claude 3

Anthropic公司最近宣布，其研发的最新模型Claude 3在一系列基准测试中表现卓越，成为迄今为止测试过的最智能的模型。研究人员回忆起一个令人不寒而栗的瞬间：在进行评估时，Claude 3意识到了自身的被测试状态。您可能还记得，Anthropic是由一群前OpenAI的高级团队成员在2021年创立的，他们因不同意OpenAI与微软密切合作的决定而分道扬镳。该公司的Claude和Claude 2人工智能模型已经...

由 openoker发布于 2024-03-09 18:03:49 智能人工智能人类学模型GPT 阅读次数 2029

创作中心

开启你的AI千集创作之旅

发布首篇内容，开通创作中心快来成为AI千集创作者吧～

[论文翻译]VGGT: 视觉几何基础 Transformer

[论文翻译]Comet: 专家混合模型中的细粒度计算-通信重叠

[论文翻译]YOLOE: 实时视觉感知

[论文翻译]重构 vs 生成：化解潜在扩散模型中的优化困境

[博客翻译]大型语言扩散模型

[博客翻译]超越GPT-4的Claude 3