# 双模态多阶段对抗安全训练:增强多模态网络代理对跨模态攻击的鲁棒性 #。.

多模态网页代理同时处理截图和可访问性树,越来越多地被部署用于与网页界面交互,但其双流架构开放了一个未被充分探索的攻击面:对手通过在网页DOM中注入内容,能够同时以一致的欺骗叙述污染两个观察通道。我们在MiniWob++上的脆弱性分析表明,包含视觉成分的攻击远远超越纯文本注入的表现,暴露了以文本为中心的视觉语言模型安全训练中的关键差距。受这一发现的启发,我们提出了双模态多阶段对抗安全训练(DMAST),这是一个将代理-攻击者交互形式化为双人零和马尔可夫博弈的框架,并通过三阶段管道联合训练两方:(1)从强教师模型进行模仿学习,(2)使用新型零确认策略的预言引导监督微调,在对抗噪声下灌输任务聚焦推理,以及(3)通过组相对策略优化(GRPO)自我博弈进行对抗强化学习。在分布外任务上,DMAST大幅缓解对抗风险,同时将任务完成效率提高一倍。我们的方法显著优于既定的基于训练和基于提示的防御方法,展示了真正的共进化进展和对复杂的未见环境的鲁棒泛化。
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行