[论文翻译]Layout Diffusion: 面向布局到图像生成的可控扩散模型
现在请按照上面的要求开始翻译以下内容为简体中文:最近,扩散模型 (diffusion models) 在图像合成领域取得了巨大成功。然而,当涉及包含多个对象的复杂场景的布局到图像生成 (layout-to-image generation) 时,如何同时精确控制全局布局图和每个细节对象仍是一项具有挑战性的任务。本文提出了一种名为 Layout Diffusion 的扩散模型,其生成质量和控制能力均优于先前工作。为解决图像与布局的多模态融合难题,我们提出构建具有区域信息的结构化图像块 (structural image patch),并将分块图像转换为特殊布局形式,从而实现与常规布局的统一融合。此外,本文提出的布局融合模块 (Layout Fusion Module, LFM) 和对象感知交叉注意力 (Object-aware Cross Attention, OaCA) 能够建模多对象间关系,其设计具备对象感知和位置敏感性,可精确控制空间相关信息。