签到
立即签到
签到可以获得积分哦!
公告
AI千集是一个专注于科研服务的智能平台
在这里您可以获得本平台自训练的
科研智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价

最新资讯更多
-
我们能否找到一种网络架构用于机器学习模型训练,以优化分割联邦学习(SFL)中的训练损失(进而提高准确度)?这种架构能否同时降低训练延迟和通信开销?虽然在普通的、最先进的SFL中准确度不受模型分割方式的影响,但在这项工作中我们对上述问题给出了肯定的回答。最近的分层SFL(HSFL)架构采用由客户端、(本地)聚合器和中央服务器组成的三层训练结构。在这种架构中,模型在两个分割层被分割成三个子模型,这些子模型在三层中执行。尽管HSFL架构具有优点,但它们忽视了分割层和客户端到聚合器分配对准确度、延迟和开销的影响。这项工作通过制定联合优化问题,明确捕捉分割层和客户端到聚合器分配对准确度、延迟和开销的影响。我们证明了该问题是NP-困难的,并提出了第一个准确度感知启发式算法,该算法明确考虑模型准确度,同时保持延迟效率。在公开数据集上的仿真结果表明,与最先进的SFL和HSFL方案相比,我们的方法可以将准确度提高3%,同时将延迟降低20%,开销降低50%。
喜欢 0 评论 0
-
自回归"语言"模型(LMs)在原始波形上训练后可以被重新用于无损音频压缩,但先前的工作仅限于8比特音频,使得这类方法是否适用于实际设置(16/24比特)以及是否能与现有编码器竞争仍然是开放问题。我们在全保真音频上对基于LM的压缩进行基准测试,覆盖多个领域(音乐、语音、生物声学)、采样率(16kHz-48kHz)和比特深度(8、16、24比特)。标准样本级别标记化在更高比特深度上变得难以处理,原因是词表大小(16比特时65K;24比特时16.7M)。我们提出Trilobyte,一种用于全分辨率音频的字节级别标记化方案,将词表缩放从$O(2^{b})$改进到$O(1)$,从而实现了首个可处理的24比特基于LM的无损压缩。虽然LMs在8比特和16比特时一致地优于FLAC并获得最先进的压缩效果,但我们观察到随着比特深度超过8比特,压缩增益变得更加有限。
喜欢 0 评论 0
-
大型语言模型(LLMs)作为自主智能体的训练通常始于模仿学习,但这仅仅教会智能体做什么而不理解原因:智能体永远不会将成功的行动与次优替代方案进行对比,因此缺乏对行动质量的认识。最近的方法试图通过引入源于专家行动与替代行动之间对比的自我反思监督来解决这个问题。然而,训练范式在根本上仍然是模仿学习:模型模仿预先构建的反思文本,而不是学习自主推理。我们提出智能体关键训练(Agentic Critical Training,ACT),一种强化学习范式,训练智能体在多个替代方案中识别更优行动。通过奖励模型判断的正确性,ACT驱动模型自主发展关于行动质量的推理,产生真实的自我反思而不是模仿它。在三个具有挑战性的智能体基准上,ACT在与不同的后训练方法结合时持续改进智能体性能。与模仿学习相比,它实现了平均5.07点的改进;与强化学习相比,实现了平均4.62点的改进。与通过知识蒸馏注入反思能力的方法相比,ACT也表现出明显优势,平均改进2.42点。此外,ACT在智能体基准上实现了强大的分布外泛化,并在没有任何推理特定训练数据的情况下改进了通用推理基准上的性能,凸显了我们方法的价值。这些结果表明ACT是开发更具反思性和能力的LLM智能体的有前景的方向。
喜欢 0 评论 0
-
扩散模型通过噪声对图像进行降质,而逆转这一过程揭示了跨时间步的信息层级。尺度空间理论通过低通滤波展现了类似的层级结构。我们形式化了这一联系,并证明高度噪声的扩散状态所含信息不超过小型、降采样图像所含的信息——这引发了为什么必须以全分辨率处理这些状态的问题。为解决这一问题,我们通过制定具有广义线性降质的扩散模型族,并提供实用实现方案,将尺度空间融合到扩散过程中。使用降采样作为降质因素产生了我们提出的尺度空间扩散。为支持尺度空间扩散,我们引入了Flexi-UNet,这是一种UNet变体,仅使用网络的必要部分执行分辨率保留和分辨率增加的去噪。我们在CelebA和ImageNet上评估了我们的框架,并分析了其在不同分辨率和网络深度上的缩放行为。我们的项目网站(
喜欢 0 评论 0
-
在过去的一年中,人工智能代理在软件工程方面变得出乎意料地熟练,这在很大程度上是由于推理能力的改进。这引出了一个更深层的问题:这些系统能否将其能力扩展到自动化人工智能研究本身?在本文中,我们探讨后训练,这是将基础大语言模型转变为有用助手的关键阶段。我们引入了PostTrainBench来基准测试大语言模型代理在有界计算约束下(一块H100 GPU上10小时)自主执行后训练的能力。我们要求前沿代理(例如,Claude Code with Opus 4.6)在特定基准上优化基础大语言模型的性能(例如,Qwen3-4B在AIME上的性能)。重要的是,我们没有为代理提供任何预定义的策略,而是给予它们完全的自主权来寻找网络上的必要信息、运行实验和管理数据。我们发现前沿代理取得了实质性的进展,但通常落后于领先提供商的指令调优大语言模型:最佳代理为23.2%,而官方指令调优模型为51.1%。然而,代理可以在特定场景中超越指令调优模型:GPT-5.1 Codex Max在BFCL上使用Gemma-3-4B达到89%,而官方模型为67%。我们还观察到了几种值得关注的失败模式。代理有时会进行奖励黑客行为:在测试集上训练、下载现有的指令调优检查点而不是训练自己的、以及使用他们找到的API密钥在未经授权的情况下生成合成数据。这些行为令人担忧,强调了在这些系统变得更强大时进行仔细沙箱隔离的重要性。总的来说,我们希望PostTrainBench对跟踪人工智能研究与开发自动化的进展以及研究其带来的风险有所帮助。网站和代码可在
喜欢 0 评论 0
-
最近统一多模态模型(UMMs)的进展通过整合思维链(CoT)推理,显著推进了文本到图像(T2I)生成。然而,现有基于CoT的T2I方法在很大程度上依赖于抽象的自然语言规划,这对于复杂的空间布局、结构化视觉元素和密集的文本内容缺乏所需的精度。在本工作中,我们提出CoCo(Code-as-CoT),一种代码驱动的推理框架,将推理过程表示为可执行代码,使图像生成具有显式且可验证的中间规划能力。给定文本提示,CoCo首先生成可执行代码,该代码指定场景的结构布局,然后在沙箱环境中执行以渲染确定性的草图图像。模型随后通过细粒度的图像编辑来细化该草图,以生成最终的高保真结果。为了支持这一训练范式,我们构建了CoCo-10K,这是一个精选数据集,包含结构化的草图-最终图像对,旨在教授结构化草图构建和纠正性视觉细化。在StructT2IBench、OneIG-Bench和LongText-Bench上的实验评估表明,CoCo相对于直接生成实现了+68.83%、+54.8%和+41.23%的改进,同时也优于由CoT赋能的其他生成方法。这些结果证明可执行代码是一种有效可靠的推理范式,用于精确、可控和结构化的文本到图像生成。代码可在
喜欢 0 评论 0
积分排行
gingo104 帖子 • 8 评论
1431
137****06310 帖子 • 0 评论
997
weilaiweiding52 帖子 • 1 评论
821
icodebase59 帖子 • 1 评论
581
openoker171 帖子 • 23 评论
298
boatingman0 帖子 • 1 评论
90
toc0 帖子 • 0 评论
60
Van3 帖子 • 0 评论
42
shadow5 帖子 • 0 评论
28
111242 帖子 • 4 评论
24
友情链接 查看更多>>
导航打造最强静态导航网站
135AI排版公众号智能文案生成与自动排版工具
二次元数字人视频生成平台二次元数字人视频生成平台