CoCo:作为思维链的代码用于文本到图像预览和稀有概念生成 **摘要** 在文本。.

完整版
最近统一多模态模型(UMMs)的进展通过整合思维链(CoT)推理,显著推进了文本到图像(T2I)生成。然而,现有基于CoT的T2I方法在很大程度上依赖于抽象的自然语言规划,这对于复杂的空间布局、结构化视觉元素和密集的文本内容缺乏所需的精度。在本工作中,我们提出CoCo(Code-as-CoT),一种代码驱动的推理框架,将推理过程表示为可执行代码,使图像生成具有显式且可验证的中间规划能力。给定文本提示,CoCo首先生成可执行代码,该代码指定场景的结构布局,然后在沙箱环境中执行以渲染确定性的草图图像。模型随后通过细粒度的图像编辑来细化该草图,以生成最终的高保真结果。为了支持这一训练范式,我们构建了CoCo-10K,这是一个精选数据集,包含结构化的草图-最终图像对,旨在教授结构化草图构建和纠正性视觉细化。在StructT2IBench、OneIG-Bench和LongText-Bench上的实验评估表明,CoCo相对于直接生成实现了+68.83%、+54.8%和+41.23%的改进,同时也优于由CoT赋能的其他生成方法。这些结果证明可执行代码是一种有效可靠的推理范式,用于精确、可控和结构化的文本到图像生成。代码可在
评论
    公告

    AI千集是一个专注于科研服务的智能平台
    在这里您可以获得本平台自训练的
    科研智能体
    和小伙伴一起玩转AI,做自己的AI机器人
    来AI千集,赋能智慧快人一步
    扫一扫,快速获取解决方案与报价
    立即咨询

    积分排行