本文按照AI生成图的基本步骤给大家讲解从图片生产前置工序->图片生产过程->图片生成后效处理工序的顺序来讲解各道工序使用的工具及其作用。
1
图片生产前置工序
生产前置工序包括问题图片对齐、图片打标、图片质量打分工具、图片扩充(尺寸调整、物品边界调整、物品轮廓线识别...)、人像调整(脸部、手部)等方法,可以用来增加控制“文本生成图系统”训练前的数据质量,让数据更加准确、多样化。
1. 图片打标
1.1 图片描述工具
如果我们想描述一张图,可以使用image caption,如图1所示,该工具将图片描述为"a woman in a white dress standing in a field with a sun setting."
链接:https://huggingface.co/Salesforce/blip-image-captioning-large
图1. 图片描述-image caption
1.2 图片打标工具
根据上篇文章我们知道,AI控制文本生成图时需要用"Tag" ,这里"Tag"指可以描述图片的"文本标记"。输入准确的Tag可以帮助我们生成出想要的图片。在训练前,我们要如何让我们的训练数据获得这些Tag呢?prompt在这个环节就起着至关重要的作用。网上有不少prompt的开源工具,在此,我也给大家介绍几款,他们分别是:
- huggingface的Deep Danbooru,链接:https://huggingface.co/spaces/hysts/DeepDanbooru
如果你给它一张照片,可以获得一系列Tag,如图2所示。 - Dynamic prompts,链接:https://github.com/adieyal/sd-dynamic-prompts
如图3所示 - Extensions Prompt,链接:https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Extensions-Prompt
图2. 图片打标-Deep Danbooru
图3. 图片打标-Dynamic Prompts
2. 图片质量打分工具
图片质量打分工具即可以用在图片生成前置工序,也可以作为图片生成后期工序上。因为,入模前,我们需要对图片数据进行筛选,而生成图后,则需要筛选出效果好的图片使用。
图4这款打分工具非常容易上手,效果也很好。链接:https://github.com/tsngo/stable-diffusion-webui-aesthetic-image-scorer
图4. 图片质量打分
3. 图片扩充
在此,我们将图片尺寸调整、物体边界识别、物体轮廓线识别、内容填充和图像增强都归为图片扩充。
3.1 尺寸调整
尺寸调整难点在于如何识别出物体位置、边界然后做图片归一化。可用我们下面提到的物体边界识别先识别出再做尺寸调整。链接:https://github.com/nachifur/MulimgViewer
3.2 物体边界识别
链接:https://huggingface.co/keremberke/yolov8m-building-segmentation
图 5. 物体边界识别
3.3 物体轮廓线识别
链接:https://bowenc0221.github.io/maskformer/
图6. 物体轮廓线识别
3.4 内容填充
链接:https://huggingface.co/spaces/nielsr/text-based-inpainting
图7. 图片填充
3.5 图片增强
链接: https://github.com/albumentations-team/albumentations
图8. 图片增强
4. 人像工具
4.1 人脸调整
用于生成清晰的人脸,链接:https://huggingface.co/spaces/sczhou/CodeFormer
图9. 人脸调整
4.2 手指调整
如果出现手指可以描述是五个手指,先利用negative prompt把手指不正常的去处。再训练一个正面人物手指处理lora。
图10. 手指调整
4.3 多手调整
有两种方式:
- 训练模型时候加重negative prompt人物手的描述权重。
- 训练一个人物手脚过滤模型。
2
图片生产过程工序
和工具使用
图生产工序是将已经处理好的图输入到模型中,再通过模型选择和参数调整生产出最终的效果图。
这里我们会依次给大家介绍图生产中使用的模型,模型下载库,网络控制和参数控制、场景环境控制、Prompt扩写润色。
1. 模型
根据个性化定制化程度不同,产图模型又分通用内容模型和专用内容模型。通用内容模型有:SD原生模型、写实模型、二次元模型等;专用内容模型有:洲人脸模型、插画风格等。图是各种产图模型的效果图展示。
(1)通用款-SD原生模型,链接:https://stablediffusionweb.com/
图11. SD原生模型
(2)通用款-写实模型,链接:https://huggingface.co/dreamlike-art/dreamlike-photoreal-2.0
图12. 写实模型
(3)通用款-二次元,链接:https://huggingface.co/andite/anything-v4.0
图13. 二次元模型
(4) 专用款-亚洲人脸,链接:https://civitai.com/models/6925/realdosmix)+Realistic
图14. 亚洲人脸
(5) 插画风格,链接: https://pan.baidu.com/s/1EI2Mcgm19iPeullihUJefg?pwd=hmfv
图15. 插画风格
(6)专用款-厚涂,链接:https://huggingface.co/FloydianSound/WLOP_Diffusion_v1-5
图16. 厚涂
2. 模型下载库
这部分介绍两个常用的模型下载库:
civitai模型下载
step1:打开 https://civitai.com/tag/lora
组图1_1. civitai模型库界面
step2: 点击感兴趣图片进入该图页面,将鼠标移到涂上蓝色Download Latest这个button上,右击复制模型链接即可下载。
组图1_2. civitai模型库界面
huggingface模型下载
step1: 打开https://huggingface.co/andite ,点击某个model.
组图2_1. huggingface模型库界面
step2:找到File and version,点击想要下载的模型
组图2_2. huggingface模型库界面
step3: 进入后,在download上右击复制地址链接
组图2_3. huggingface模型库界面
step4: 得到模型url地址就可以用:aria2c工具下载
例如:aria2c https://huggingface.co/andite/anything-v4.0/resolve/main/anything-v4.0-pruned-fp16.safetensors
3. 网络控制和参数控制
之前的文章我们提到网络和参数都是影响图片最终生成效果的关键工序,这个部分我们可以使用Lora层和深度图层对生成过程的网络和参数进行控制。
Lora层
这里有太多东西可以说,但是基本都是要自己准备数据训练模型来实现。比较考验技术底子,说白了就是你想让模型学习什么。
要做真正工业应用的产品,而不只是toy自己训练模型是必须的。**利用好Lora可以给你带来事倍功半的效果。**我们可以把Lora当成功能分层,效果分层类似计算成像的管线路子效果可以做到很震撼。
链接: https://civitai.com/tag/lora
图17. Lora层
深度图层
对图片生成深度图层,可以用在3D或者AR、VR虚拟生成,元宇宙世界中使用。或者可以用在游戏引擎中做角色建模,也可以在3d打印时候使用。
链接:https://github.com/thygate/stable-diffusion-webui-depthmap-script
图18. 深度图层
4. 场景环境控制
此部分又包括:室内场景、室外场景、光照控制、色系控制。
5. Prompt扩写润色
如图所示,输入简短句子"a cute girl stand beside window,blender 3d",右边对话框出现描述这个girl的段落。
图19. Prompt工具
链接:
https://huggingface.co/spaces/blairoreilly/merve-chatgpt-prompts-bart-long
https://huggingface.co/spaces/awacke1/PromptRefinery
3
图片生成后效处理工序
经过上述步骤,图片就初步形成,最后,就是要对生成的图片做修建、改进。这里涉及:
- 多物体融合渲染
- 多角色融合
- 光照调整
- 位置调整
- 超分
(1)多物体融合渲染
链接:https://github.com/Extraltodeus/multi-subject-render
图20. 多物体融合渲染
(2)多角色融合
链接:https://www.cs.cmu.edu/~custom-diffusion/
图21. 多角色融合
(3)光照调整
可以通过风格调整来实现,对同一种光照图片做光照Lora
图22. 光照调整
(4)位置调整
角色适合放在场景图片什么位置:可以考虑objectdetector对相似背景下物体放置位置预估,然后吧角色放置合适位置,做后续融合处理。多角色融合时候和场景图片如何做位置调整:可以考虑objectdetector对相似背景下物体放置位置预估,然后吧角色放置合适位置,做后续融合处理
(5)超分
实现生成图片的尺寸放大,图片的高清晰度优化
链接:https://github.com/xinntao/ESRGAN
图23. 超分
4
studio易用性工具
最后,介绍几款简单易用、提高效率的小工具。
(1) 多语言插件
https://github.com/dtlnor/stable-diffusion-webui-localization-zh_CN
(2) aria2内容下载工具
高速稳定下载文件:https://aria2.github.io/
(3) 提效工具
批量prompt效果展示最佳选择—prompt,如图所示
https://github.com/dr413677671/PromptGallery-stable-diffusion-webui
图24. Prompt提效工具
(4) 多参数最优效果选择
https://github.com/mcmonkeyprojects/sd-infinity-grid-generator-script
图25. 多参数最优效果选择
看完上述内容,你是否学会了呢?喜欢记得关注、点赞、收藏三连键。AIFat持续为你提供有趣、有料的前沿内容。加油鸭~
本文转载自《打造Ai作图studio需要哪些工具》