签到
立即签到
签到可以获得积分哦!
公告
AI千集是一个专注于科研服务的智能平台
在这里您可以获得本平台自训练的
科研智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价

最新资讯更多
-
在多智能体系统的领域中,\emph{部分可观测性}的挑战是有效协调和决策的一个关键障碍。现有的方法,如信念状态估计和智能体间通信,往往不够完善。基于信念的方法受限于其对过去经验的关注,而没有充分利用全局信息,而通信方法通常缺乏一个鲁棒的模型来有效地利用它们提供的辅助信息。为了解决这个问题,我们提出了全局状态扩散算法(Global State Diffusion Algorithm,简称GlobeDiff),以基于局部观测来推断全局状态。通过将状态推断过程形式化为一个多模态扩散过程,GlobeDiff克服了状态估计中的模糊性,同时以高保真度推断全局状态。我们证明,在单模态和多模态分布下,GlobeDiff的估计误差均可被界定。大量的实验结果表明,GlobeDiff实现了优越的性能,并且能够准确推断全局状态。
喜欢 0 评论 0
-
准确表征建筑语义,包括通用对象类型和特定子类型,对于在建筑、工程、施工和运营(AECO)行业中有效训练AI模型至关重要。传统的编码方法(例如,独热编码)往往无法传达密切相关子类型之间的细微关系,限制了AI的语义理解。为了解决这一局限性,本研究提出了一种新的训练方法,该方法采用大型语言模型(LLM)嵌入(例如,OpenAI GPT和Meta LLaMA)作为编码来保留建筑语义中的更细微的区分。我们通过训练GraphSAGE模型来对五个高层住宅建筑信息模型(BIMs)中的42种建筑对象子类型进行分类,评估了所提出的方法。测试了各种嵌入维度,包括原始的高维LLM嵌入(1,536、3,072或4,096)以及通过Matryoshka表示模型生成的1,024维压缩嵌入。实验结果表明,LLM编码优于传统的独热基线,其中llama-3(压缩)嵌入实现了0.8766的加权平均F1分数,而独热编码为0.8475。这些结果强调了利用基于LLM的编码来增强AI解释复杂、特定领域建筑语义能力的前景。随着LLM和降维技术的不断发展,这种方法在AECO行业的语义细化任务中具有广泛应用的巨大潜力。
喜欢 0 评论 0
-
在良性的任务上微调对齐的语言模型会意外地降低安全防护措施,即使训练数据中不包含有害内容,开发者也没有对抗意图。我们表明,盛行的解释,即微调更新应该与高维参数空间中安全关键的方向正交,提供了虚假的安慰:我们表明这种正交性在结构上是不稳定的,在梯度下降的动力学下会崩溃。然后,我们通过一种新颖的几何分析来解决这一问题,证明对齐集中在具有尖锐曲率的低维子空间中,形成了一种脆弱的结构,一阶方法无法检测或防御。尽管初始的微调更新确实可以避免这些子空间,但微调损失的曲率会产生二阶加速,系统地引导轨迹进入对齐敏感的区域。我们通过对齐不稳定性条件来形式化这一机制,该条件包括三个几何属性,当共同满足时会导致安全退化。我们的主要结果建立了一个四次方缩放定律:对齐损失随着训练时间的四次方增长,受对齐几何的尖锐性和微调任务与安全关键参数之间曲率耦合的强度所控制。这些结果揭示了当前安全范式中的一个结构性盲点。针对安全微调的占主导地位的方法仅解决了这个根本上是动态问题的初始快照。对齐脆弱性不是一个需要修复的错误;它是曲率流形上梯度下降的内禀几何属性。我们的结果促使开发曲率感知方法,我们希望这将进一步使对齐安全分析从反应式红队转变为开放权重模型部署的预测性诊断。
喜欢 0 评论 0
-
在线平台需要强大的系统来大规模执行内容安全政策。这些系统的一个关键组成部分是评估由人类代理和大型语言模型(LLMs)做出的内容监管决策的质量。然而,由于成本、规模和可信度之间的固有权衡,以及不断变化政策的复杂性,这种评估具有挑战性。为了解决这个问题,我们介绍了Pinterest开发和部署的综合决策质量评估框架。该框架以由主题专家(SMEs)精心策划的高信任度黄金集(GDS)为中心,作为基准的真实数据。我们引入了一个自动智能采样流程,该流程使用倾向分数来有效地扩大数据集覆盖范围。我们展示了该框架在几个关键领域的实际应用:评估各种LLM代理的成本性能权衡、建立基于数据的提示优化的严格方法、管理复杂的政策演变以及通过持续验证确保政策内容普及度指标的完整性。该框架使内容安全系统从主观评估转向数据驱动和量化的实践。
喜欢 0 评论 0
-
临床部署胸部X光片分类器需要能够在新数据集可用时更新模型,而无需在先前观察到的数据上重新训练,也不会降低验证性能。我们首次研究了胸部X光片分类的任务增量持续学习设置,其中异构的胸部X射线数据集依次到达,并且在推理时任务标识不可用。我们提出了一种基于持续适配器的路由学习策略,称为CARL-XRay,该策略保持一个固定的高容量骨干网络,并增量分配轻量级任务特定适配器和分类器头。一个潜在的任务选择器在任务适配特征上操作,并利用通过紧凑原型和特征级经验回放保留的当前和历史上下文。这种设计支持在连续更新过程中稳定地进行任务识别和适应,同时避免了原始图像的存储。在大型公共胸部X光片数据集上的实验表明,在持续数据集摄入的情况下,该设计能够保持稳健的性能保持和可靠的基于任务的推理。CARL-XRay在任务未知部署下优于联合训练,实现了更高的路由准确率(75.0%对62.5%),同时在具有真实任务标识的Oracle设置下保持了具有AUROC 0.74的竞争力诊断性能,在任务未知推理下为0.75,同时使用显著更少的可训练参数。最后,所提出的框架为持续临床部署中的联合训练和重复完全重新训练提供了实用的替代方案。
喜欢 0 评论 0
-
紧凑型预训练双向编码器在计算和内存预算紧张的情况下仍然是工业自然语言处理的核心。它们的有效性源于自注意力机制能够通过序列级别的并行性提供高质量的双向上下文化,这一特点由BERT风格架构所普及。最近,Avey作为一种自回归、无注意力机制的替代方案被引入,它自然地允许只使用编码器进行适配。在本文中,我们对Avey进行了重新设计,以适应只使用编码器的范式,并对其架构提出了几个创新,包括解耦静态和动态参数化、以稳定性为导向的归一化以及神经网络压缩。结果表明,这种重新设计的架构与四种广泛使用的基于Transformer的编码器相比具有优势,在标准标记分类和信息检索基准测试中始终优于它们,并且能够更高效地扩展到长上下文。
喜欢 0 评论 0
积分排行
gingo104 帖子 • 8 评论
1401
137****06310 帖子 • 0 评论
997
weilaiweiding52 帖子 • 1 评论
821
openoker171 帖子 • 23 评论
298
icodebase54 帖子 • 1 评论
153
boatingman0 帖子 • 1 评论
90
toc0 帖子 • 0 评论
60
Van3 帖子 • 0 评论
42
shadow5 帖子 • 0 评论
28
111242 帖子 • 4 评论
24
友情链接 查看更多>>
导航打造最强静态导航网站
135AI排版公众号智能文案生成与自动排版工具
二次元数字人视频生成平台二次元数字人视频生成平台