签到
立即签到
签到可以获得积分哦!
公告
AI千集是一个专注于科研服务的智能平台
在这里您可以获得本平台自训练的
科研智能体
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,赋能智慧快人一步
扫一扫,快速获取解决方案与报价

最新资讯更多
-
安全对齐的语言模型通过编码在其内部表示中的学习拒绝行为来拒绝有害请求。最近的基于激活的越狱方法通过应用正交投影来移除拒绝方向,从而规避这些安全机制,但这些方法将拒绝视为一维现象,忽略了模型激活的丰富分布结构。我们引入了一个基于最优运输理论的原则性框架,该框架将有害激活的整个分布变换为与无害激活相匹配。通过将PCA与闭式高斯最优运输相结合,我们在高维表示空间中实现了高效计算,同时保留了必要的几何结构。在六个模型(Llama-2、Llama-3.1、Qwen-2.5;7B-32B参数)上,我们的方法相比最先进的基线方法实现了高达11%的攻击成功率提升,同时保持了可比较的困惑度,展示了对模型能力的卓越保护。至关重要的是,我们发现层选择性干预(在网络深度约40-60%处选择1-2个精心挑选的层应用最优运输)的性能远优于全网络干预,揭示了拒绝机制可能是本地化的而非分布式的。我们的分析为安全表示的几何结构提供了新的洞见,并表明当前的对齐方法可能易受超越简单方向移除的分布式攻击所攻击。
喜欢 0 评论 0
-
机器人学习的最近进展加快了通用机器人的发展步伐,这些机器人能够在人类环境中执行日常任务。然而,我们仍然难以判断离这一愿景有多远。该领域缺乏一个可重现的大规模基准来进行系统评估。为了填补这一空白,我们提出了RoboCasa365,这是一个针对家务移动操纵的全面模拟基准。RoboCasa365建立在RoboCasa平台之上,在2,500个多样化的厨房环境中引入了365个日常任务,包含超过600小时的人类演示数据和超过1600小时的合成生成演示数据——使其成为研究通用策略最多样化和大规模的资源之一。RoboCasa365旨在支持不同问题设置的系统评估,包括多任务学习、机器人基础模型训练和终身学习。我们使用最先进的方法在此基准上进行了广泛的实验,并分析了任务多样性、数据集规模和环境变化对泛化的影响。我们的结果提供了关于哪些因素最强烈地影响通用机器人性能的新见解,并为该领域未来进展提供了策略指导。
喜欢 0 评论 0
-
病理学报告生成仍然是一项相对未被充分探索的下游任务,主要原因是全玻片扫描图像(WSIs)的十亿像素级规模和复杂的形态学异质性。现有的病理学报告生成框架通常采用Transformer架构,依靠均一的解码器架构和静态知识检索集成。这样的架构限制了生成特化,可能在报告生成过程中引入噪声外部指导。为了解决这些限制,我们提出了RANGER,一个具有自适应检索重排序的稀疏门控混合专家(MoE)框架用于病理学报告生成。具体地,我们将稀疏门控MoE集成到解码器中,配合噪声top-k路由和负载平衡正则化,以实现跨各种诊断模式的动态专家特化。此外,我们引入了一个自适应检索重排序模块,在集成前选择性地细化从知识库检索的记忆,降低噪声并根据视觉特征表示改进语义对齐。我们在PathText-BRCA数据集上进行了广泛的实验,并在标准自然语言生成指标上相对于现有方法展示了持续的改进。我们的完整RANGER模型在PathText数据集上取得最优性能,BLEU-1至BLEU-4得分分别为0.4598、0.3044、0.2036和0.1435,METEOR为0.1883,ROUGE-L为0.3038,这验证了动态专家路由和自适应知识细化对语义基础的病理学报告生成的有效性。
喜欢 0 评论 0
-
量化可以大幅提高大型语言和视觉模型的效率,但通常会导致精度下降。最近,函数保留变换(例如旋转、Hadamard变换、通道级缩放)已被成功应用于降低后训练量化误差,但其原理解释仍不明确。我们通过信噪比(SQNR)分析线性层量化,表明对于固定比特宽度的均匀整数量化,SQNR分解为(i)权重和激活的浓度(捕捉分布和异常值),以及(ii)其主要变化方向的对齐。这揭示了一个可操作的洞察:除了浓度——大多数先前变换(例如旋转或Hadamard)的重点——改进权重和激活之间的对齐可以进一步降低量化误差。基于这一动机,我们引入块浓度-对齐变换(CAT),一种轻量级线性变换,使用小校准集的协方差估计来联合改进浓度和对齐,近似最大化SQNR。在多个大型语言模型上的实验表明,CAT在4比特精度下始终匹配或超越先前的基于变换的量化方法,确认了我们框架中获得的洞察。
喜欢 0 评论 0
-
多模态网页代理同时处理截图和可访问性树,越来越多地被部署用于与网页界面交互,但其双流架构开放了一个未被充分探索的攻击面:对手通过在网页DOM中注入内容,能够同时以一致的欺骗叙述污染两个观察通道。我们在MiniWob++上的脆弱性分析表明,包含视觉成分的攻击远远超越纯文本注入的表现,暴露了以文本为中心的视觉语言模型安全训练中的关键差距。受这一发现的启发,我们提出了双模态多阶段对抗安全训练(DMAST),这是一个将代理-攻击者交互形式化为双人零和马尔可夫博弈的框架,并通过三阶段管道联合训练两方:(1)从强教师模型进行模仿学习,(2)使用新型零确认策略的预言引导监督微调,在对抗噪声下灌输任务聚焦推理,以及(3)通过组相对策略优化(GRPO)自我博弈进行对抗强化学习。在分布外任务上,DMAST大幅缓解对抗风险,同时将任务完成效率提高一倍。我们的方法显著优于既定的基于训练和基于提示的防御方法,展示了真正的共进化进展和对复杂的未见环境的鲁棒泛化。
喜欢 0 评论 0
-
生成式音频需要细粒度的可控输出,但大多数现有方法要么需要在特定控制上重新训练模型,要么需要推理时控制(例如引导),这些也可能在计算上很耗时。通过研究现有引导型控制方法的瓶颈,特别是其由于解码器反向传播导致的每步高成本,我们通过选择性TFG和潜在控制头(LatCHs)引入了一种引导型方法,该方法能够以低计算开销控制潜在音频扩散模型。LatCHs直接在潜在空间中操作,避免了昂贵的解码器步骤,并且需要最少的训练资源(700万参数,约4小时的训练)。使用Stable Audio Open进行的实验展示了对强度、音高和节拍(以及这些的组合)的有效控制,同时保持了生成质量。我们的方法在保持精度和音频保真度的同时,相比标准端到端引导具有远低得多的计算成本。演示示例可在
喜欢 0 评论 0
积分排行
gingo104 帖子 • 8 评论
1431
137****06310 帖子 • 0 评论
997
weilaiweiding52 帖子 • 1 评论
821
icodebase58 帖子 • 1 评论
579
openoker171 帖子 • 23 评论
298
boatingman0 帖子 • 1 评论
90
toc0 帖子 • 0 评论
60
Van3 帖子 • 0 评论
42
shadow5 帖子 • 0 评论
28
111242 帖子 • 4 评论
24
友情链接 查看更多>>
导航打造最强静态导航网站
135AI排版公众号智能文案生成与自动排版工具
二次元数字人视频生成平台二次元数字人视频生成平台