本文按照AI生成图的基本步骤给大家讲解从图片生产前置工序->图片生产过程->图片生成后效处理工序的顺序来讲解各道工序使用的工具及其作用。
1
图片生产前置工序
生产前置工序包括问题图片对齐、图片打标、图片质量打分工具、图片扩充(尺寸调整、物品边界调整、物品轮廓线识别...)、人像调整(脸部、手部)等方法,可以用来增加控制“文本生成图系统”训练前的数据质量,让数据更加准确、多样化。
1. 图片打标
1.1 图片描述工具
如果我们想描述一张图,可以使用image caption,如图1所示,该工具将图片描述为"a woman in a white dress standing in a field with a sun setting."
链接:https://huggingface.co/Salesforce/blip-image-captioning-large
图1. 图片描述-image caption
1.2 图片打标工具
根据上篇文章我们知道,AI控制文本生成图时需要用"Tag" ,这里"Tag"指可以描述图片的"文本标记"。输入准确的Tag可以帮助我们生成出想要的图片。在训练前,我们要如何让我们的训练数据获得这些Tag呢?prompt在这个环节就起着至关重要的作用。网上有不少prompt的开源工具,在此,我也给大家介绍几款,他们分别是:
- huggingface的Deep Danbooru,链接:https://huggingface.co/spaces/hysts/DeepDanbooru
如果你给它一张照片,可以获得一系列Tag,如图2所示。 - Dynamic prompts,链接:https://github.com/adieyal/sd-dynamic-prompts
如图3所示 - Extensions Prompt,链接:https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Extensions-Prompt
图2. 图片打标-Deep Danbooru
图3. 图片打标-Dynamic Prompts
2. 图片质量打分工具
图片质量打分工具即可以用在图片生成前置工序,也可以作为图片生成后期工序上。因为,入模前,我们需要对图片数据进行筛选,而生成图后,则需要筛选出效果好的图片使用。
图4这款打分工具非常容易上手,效果也很好。链接:https://github.com/tsngo/stable-diffusion-webui-aesthetic-image-scorer
图4. 图片质量打分
3. 图片扩充
在此,我们将图片尺寸调整、物体边界识别、物体轮廓线识别、内容填充和图像增强都归为图片扩充。
3.1 尺寸调整
尺寸调整难点在于如何识别出物体位置、边界然后做图片归一化。可用我们下面提到的物体边界识别先识别出再做尺寸调整。链接:https://github.com/nachifur/MulimgViewer
3.2 物体边界识别
链接:https://huggingface.co/keremberke/yolov8m-building-segmentation
图 5. 物体边界识别
3.3 物体轮廓线识别
链接:https://bowenc0221.github.io/maskformer/
图6. 物体轮廓线识别
3.4 内容填充
链接:https://huggingface.co/spaces/nielsr/text-based-inpainting
图7. 图片填充
3.5 图片增强
链接: https://github.com/albumentations-team/albumentations
图8. 图片增强
4. 人像工具
4.1 人脸调整
用于生成清晰的人脸,链接:https://huggingface.co/spaces/sczhou/CodeFormer
图9. 人脸调整
4.2 手指调整
如果出现手指可以描述是五个手指,先利用negative prompt把手指不正常的去处。再训练一个正面人物手指处理lora。
图10. 手指调整
4.3 多手调整
有两种方式:
- 训练模型时候加重negative prompt人物手的描述权重。
- 训练一个人物手脚过滤模型。
2
图片生产过程工序
和工具使用
图生产工序是将已经处理好的图输入到模型中,再通过模型选择和参数调整生产出最终的效果图。
这里我们会依次给大家介绍图生产中使用的模型,模型下载库,网络控制和参数控制、场景环境控制、Prompt扩写润色。
1. 模型
根据个性化定制化程度不同,产图模型又分通用内容模型和专用内容模型。通用内容模型有:SD原生模型、写实模型、二次元模型等;专用内容模型有:洲人脸模型、插画风格等。图是各种产图模型的效果图展示。
(1)通用款-SD原生模型,链接:https://stablediffusionweb.com/
图11. SD原生模型
(2)通用款-写实模型,链接:https://huggingface.co/dreamlike-art/dreamlike-photoreal-2.0
图12. 写实模型
(3)通用款-二次元,链接:https://huggingface.co/andite/anything-v4.0
图13. 二次元模型
(4) 专用款-亚洲人脸,链接:https://civitai.com/models/6925/realdosmix)+Realistic
图14. 亚洲人脸
(5) 插画风格,链接: https://pan.baidu.com/s/1EI2Mcgm19iPeullihUJefg?pwd=hmfv
图15. 插画风格
(6)专用款-厚涂,链接:https://huggingface.co/FloydianSound/WLOP_Diffusion_v1-5
图16. 厚涂
2. 模型下载库
这部分介绍两个常用的模型下载库:
civitai模型下载
step1:打开 https://civitai.com/tag/lora
组图1_1. civitai模型库界面
step2: 点击感兴趣图片进入该图页面,将鼠标移到涂上蓝色Download Latest这个button上,右击复制模型链接即可下载。
组图1_2. civitai模型库界面
huggingface模型下载
step1: 打开https://huggingface.co/andite ,点击某个model.
![图片](http://aiqianji.oss-cn-shenzhen.aliyuncs.com/images/2023/06/03/acf97027a613ac633afa4c1a6