大语言模型在理解和推理能力方面展现了巨大成功。最近的研究探索了使用大视觉语言模型(VLM)作为智能体,在用户界面(UI)上执行复杂任务,旨在完成繁琐任务以替代人力 [YZL+23, YYZ+23, DGZ+23, ZGK+24, HWL+23, YZS+24, WXJ+24, GFH+24, CSC+24]。尽管取得了令人瞩目的成果,但在创建可跨多个平台(如Windows/MacOS、IOS/Android)和多个应用程序(如Web浏览器、Office365、PhotoShop、Adobe)广泛使用的智能体方面,目前的最新技术仍存在显著差距,大多数先前的工作都集中在限制应用程序或平台上。