# 双模态多阶段对抗安全训练：增强多模态网络代理对跨模态攻击的鲁棒性 #。.

多模态网页代理同时处理截图和可访问性树，越来越多地被部署用于与网页界面交互，但其双流架构开放了一个未被充分探索的攻击面：对手通过在网页DOM中注入内容，能够同时以一致的欺骗叙述污染两个观察通道。我们在MiniWob++上的脆弱性分析表明，包含视觉成分的攻击远远超越纯文本注入的表现，暴露了以文本为中心的视觉语言模型安全训练中的关键差距。受这一发现的启发，我们提出了双模态多阶段对抗安全训练（DMAST），这是一个将代理-攻击者交互形式化为双人零和马尔可夫博弈的框架，并通过三阶段管道联合训练两方：（1）从强教师模型进行模仿学习，（2）使用新型零确认策略的预言引导监督微调，在对抗噪声下灌输任务聚焦推理，以及（3）通过组相对策略优化（GRPO）自我博弈进行对抗强化学习。在分布外任务上，DMAST大幅缓解对抗风险，同时将任务完成效率提高一倍。我们的方法显著优于既定的基于训练和基于提示的防御方法，展示了真正的共进化进展和对复杂的未见环境的鲁棒泛化。