[论文翻译]OmniParser 用于纯视觉的基于 GUI 的代理 近年来大型视觉语言模型的成功表明,在推动在用户界面上运行的代理系统方面具有巨大潜力。 但是,我们认为,由于缺乏强大的屏幕解析技术,像 GPT-4V 这样的多模态模型在不同应用程序跨多个操作系统作为通用代理的能力被严重低估了。 由 openoker发布于 2024-10-26 18:24:45 屏幕截图 阅读次数 78