签到
立即签到
签到可以获得积分哦!
公告
AI千集是一个专注于科研服务的智能平台
在这里您可以获得本平台自训练的
科研智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价

最新资讯更多
-
我们介绍了OfficeQA Pro,一个用于评估AI代理在大规模异构文档语料库上进行有根据的多文档推理能力的基准。该语料库包含跨越近100年的美国财政部公报,共89,000页和超过2,600万个数值。OfficeQA Pro包含133个问题,这些问题要求在非结构化文本和表格数据上进行精确的文档解析、检索和分析推理。包括Claude Opus 4.6、GPT-5.4和Gemini 3.1 Pro Preview在内的前沿大语言模型在仅依赖参数化知识时在OfficeQA Pro上的准确率低于5%,在额外获得网络访问权限的情况下低于12%。当直接提供文档语料库时,前沿代理在超过一半的问题上仍然表现不佳,平均得分为34.1%。我们发现,为代理提供由Databricks' ai_parse_document生成的结构化文档表示会产生16.1%的平均相对性能增益。我们进行了额外的消融研究,以研究模型选择、表格表示、检索策略和测试时间缩放对性能的影响。尽管取得了这些改进,但在代理被认为可靠地进行企业级有根据推理之前,仍有显著的改进空间。
喜欢 0 评论 0
-
在经济学和计算机科学的交叉领域,研究人员正在探索双边贸易中随机报价机制的理论边界。这项研究结合了进化算法与人工智能技术,旨在为复杂的交易谈判问题找到更优的解决方案。 双边贸易中的报价机制涉及买卖双方的策略互动。传统的理论分析往往难以处理随机报价带来的复杂性,因此需要借助计算方法来突破现有认知的局限。通过引入AI技术指导搜索过程,研究团队能够在更广阔的策略空间中找到高效的均衡解。 进化搜索算法在这里扮演重要角色。这类算法通过模拟自然选择的过程,逐步优化报价策略,使得双方都能找到更佳的谈判方案。与传统的数学分析相比,这种方法更灵活且更能适应复杂的现实场景。 研究所建立的新下界提供了量化的性能保证。这意味着即使在最坏的情况下,采用这些策略的交易者也能达到某个确定的效率水平,这对于市场设计和交易平台优化具有实际意义。 这项工作为理解市场中的战略行为提供了新视角,也为开发更有效的交易机制奠定了基础。随着人工智能技术的不断进步,类似的研究有望在金融、电商等领域获得更广泛的应用。
喜欢 0 评论 0
-
我们能否找到一种网络架构用于机器学习模型训练,以优化分割联邦学习(SFL)中的训练损失(进而提高准确度)?这种架构能否同时降低训练延迟和通信开销?虽然在普通的、最先进的SFL中准确度不受模型分割方式的影响,但在这项工作中我们对上述问题给出了肯定的回答。最近的分层SFL(HSFL)架构采用由客户端、(本地)聚合器和中央服务器组成的三层训练结构。在这种架构中,模型在两个分割层被分割成三个子模型,这些子模型在三层中执行。尽管HSFL架构具有优点,但它们忽视了分割层和客户端到聚合器分配对准确度、延迟和开销的影响。这项工作通过制定联合优化问题,明确捕捉分割层和客户端到聚合器分配对准确度、延迟和开销的影响。我们证明了该问题是NP-困难的,并提出了第一个准确度感知启发式算法,该算法明确考虑模型准确度,同时保持延迟效率。在公开数据集上的仿真结果表明,与最先进的SFL和HSFL方案相比,我们的方法可以将准确度提高3%,同时将延迟降低20%,开销降低50%。
喜欢 0 评论 0
-
自回归"语言"模型(LMs)在原始波形上训练后可以被重新用于无损音频压缩,但先前的工作仅限于8比特音频,使得这类方法是否适用于实际设置(16/24比特)以及是否能与现有编码器竞争仍然是开放问题。我们在全保真音频上对基于LM的压缩进行基准测试,覆盖多个领域(音乐、语音、生物声学)、采样率(16kHz-48kHz)和比特深度(8、16、24比特)。标准样本级别标记化在更高比特深度上变得难以处理,原因是词表大小(16比特时65K;24比特时16.7M)。我们提出Trilobyte,一种用于全分辨率音频的字节级别标记化方案,将词表缩放从$O(2^{b})$改进到$O(1)$,从而实现了首个可处理的24比特基于LM的无损压缩。虽然LMs在8比特和16比特时一致地优于FLAC并获得最先进的压缩效果,但我们观察到随着比特深度超过8比特,压缩增益变得更加有限。
喜欢 0 评论 0
-
大型语言模型(LLMs)作为自主智能体的训练通常始于模仿学习,但这仅仅教会智能体做什么而不理解原因:智能体永远不会将成功的行动与次优替代方案进行对比,因此缺乏对行动质量的认识。最近的方法试图通过引入源于专家行动与替代行动之间对比的自我反思监督来解决这个问题。然而,训练范式在根本上仍然是模仿学习:模型模仿预先构建的反思文本,而不是学习自主推理。我们提出智能体关键训练(Agentic Critical Training,ACT),一种强化学习范式,训练智能体在多个替代方案中识别更优行动。通过奖励模型判断的正确性,ACT驱动模型自主发展关于行动质量的推理,产生真实的自我反思而不是模仿它。在三个具有挑战性的智能体基准上,ACT在与不同的后训练方法结合时持续改进智能体性能。与模仿学习相比,它实现了平均5.07点的改进;与强化学习相比,实现了平均4.62点的改进。与通过知识蒸馏注入反思能力的方法相比,ACT也表现出明显优势,平均改进2.42点。此外,ACT在智能体基准上实现了强大的分布外泛化,并在没有任何推理特定训练数据的情况下改进了通用推理基准上的性能,凸显了我们方法的价值。这些结果表明ACT是开发更具反思性和能力的LLM智能体的有前景的方向。
喜欢 0 评论 0
-
扩散模型通过噪声对图像进行降质,而逆转这一过程揭示了跨时间步的信息层级。尺度空间理论通过低通滤波展现了类似的层级结构。我们形式化了这一联系,并证明高度噪声的扩散状态所含信息不超过小型、降采样图像所含的信息——这引发了为什么必须以全分辨率处理这些状态的问题。为解决这一问题,我们通过制定具有广义线性降质的扩散模型族,并提供实用实现方案,将尺度空间融合到扩散过程中。使用降采样作为降质因素产生了我们提出的尺度空间扩散。为支持尺度空间扩散,我们引入了Flexi-UNet,这是一种UNet变体,仅使用网络的必要部分执行分辨率保留和分辨率增加的去噪。我们在CelebA和ImageNet上评估了我们的框架,并分析了其在不同分辨率和网络深度上的缩放行为。我们的项目网站(
喜欢 0 评论 0
积分排行
gingo104 帖子 • 8 评论
1431
137****06310 帖子 • 0 评论
997
weilaiweiding52 帖子 • 1 评论
821
icodebase59 帖子 • 1 评论
581
openoker171 帖子 • 23 评论
298
boatingman0 帖子 • 1 评论
90
toc0 帖子 • 0 评论
60
Van3 帖子 • 0 评论
42
shadow5 帖子 • 0 评论
28
111242 帖子 • 4 评论
24
友情链接 查看更多>>
导航打造最强静态导航网站
135AI排版公众号智能文案生成与自动排版工具
二次元数字人视频生成平台二次元数字人视频生成平台
