【史上最全AI作图入手教程】:打造AI作图studio之工具使用(zz)

AI应用 AI绘画  收藏
0 / 272

本文按照AI生成图的基本步骤给大家讲解从图片生产前置工序->图片生产过程->图片生成后效处理工序的顺序来讲解各道工序使用的工具及其作用。

1

图片生产前置工序

生产前置工序包括图片对齐、图片打标、图片质量打分工具、图片扩充(尺寸调整、物品边界调整、物品轮廓线识别...)、人像调整(脸部、手部)等方法,可以用来增加控制“文本生成图系统”训练前的数据质量,让数据更加准确、多样化。

1. 图片打标

1.1 图片描述工具

如果我们想描述一张图,可以使用image caption,如图1所示,该工具将图片描述为"a woman in a white dress standing in a field with a sun setting."
链接:https://huggingface.co/Salesforce/blip-image-captioning-large

图片

图1. 图片描述-image caption

1.2 图片打标工具

根据上篇文章我们知道,AI控制文本生成图时需要用"Tag" ,这里"Tag"指可以描述图片的"文本标记"。输入准确的Tag可以帮助我们生成出想要的图片。在训练前,我们要如何让我们的训练数据获得这些Tag呢?prompt在这个环节就起着至关重要的作用。网上有不少prompt的开源工具,在此,我也给大家介绍几款,他们分别是:

图片

图2. 图片打标-Deep Danbooru

图片

图3. 图片打标-Dynamic Prompts

2. 图片质量打分工具

图片质量打分工具即可以用在图片生成前置工序,也可以作为图片生成后期工序上。因为,入模前,我们需要对图片数据进行筛选,而生成图后,则需要筛选出效果好的图片使用。

图4这款打分工具非常容易上手,效果也很好。链接:https://github.com/tsngo/stable-diffusion-webui-aesthetic-image-scorer

图片

图4. 图片质量打分

3. 图片扩充

在此,我们将图片尺寸调整、物体边界识别、物体轮廓线识别、内容填充和图像增强都归为图片扩充。

3.1 尺寸调整

尺寸调整难点在于如何识别出物体位置、边界然后做图片归一化。可用我们下面提到的物体边界识别先识别出再做尺寸调整。链接:https://github.com/nachifur/MulimgViewer

3.2 物体边界识别

链接:https://huggingface.co/keremberke/yolov8m-building-segmentation

图片

图 5. 物体边界识别

3.3 物体轮廓线识别

链接:https://bowenc0221.github.io/maskformer/

图片

图6. 物体轮廓线识别

3.4 内容填充

链接:https://huggingface.co/spaces/nielsr/text-based-inpainting

图片

图7. 图片填充

3.5 图片增强

链接: https://github.com/albumentations-team/albumentations

图片

图8. 图片增强

4. 人像工具

4.1 人脸调整

用于生成清晰的人脸,链接:https://huggingface.co/spaces/sczhou/CodeFormer

图片

图9. 人脸调整

4.2 手指调整

如果出现手指可以描述是五个手指,先利用negative prompt把手指不正常的去处。再训练一个正面人物手指处理lora。

图片

图10. 手指调整

4.3 多手调整

有两种方式:

  1. 训练模型时候加重negative prompt人物手的描述权重。
  2. 训练一个人物手脚过滤模型。

2

图片生产过程工序

和工具使用

图生产工序是将已经处理好的图输入到模型中,再通过模型选择和参数调整生产出最终的效果图。

这里我们会依次给大家介绍图生产中使用的模型,模型下载库,网络控制和参数控制、场景环境控制、Prompt扩写润色

1. 模型

根据个性化定制化程度不同,产图模型又分通用内容模型专用内容模型。通用内容模型有:SD原生模型、写实模型、二次元模型等;专用内容模型有:洲人脸模型、插画风格等。图是各种产图模型的效果图展示。

(1)通用款-SD原生模型,链接:https://stablediffusionweb.com/

图片

图11. SD原生模型

(2)通用款-写实模型,链接:https://huggingface.co/dreamlike-art/dreamlike-photoreal-2.0

图片

图12. 写实模型

(3)通用款-二次元,链接:https://huggingface.co/andite/anything-v4.0

图片

图片

图片

图13. 二次元模型

(4) 专用款-亚洲人脸,链接:https://civitai.com/models/6925/realdosmix)+Realistic

图片

图14. 亚洲人脸

(5) 插画风格,链接: https://pan.baidu.com/s/1EI2Mcgm19iPeullihUJefg?pwd=hmfv

图片

图15. 插画风格

(6)专用款-厚涂,链接:https://huggingface.co/FloydianSound/WLOP_Diffusion_v1-5

图片

图16. 厚涂

2. 模型下载库

这部分介绍两个常用的模型下载库:

civitai模型下载

step1:打开 https://civitai.com/tag/lora

图片

组图1_1. civitai模型库界面

step2: 点击感兴趣图片进入该图页面,将鼠标移到涂上蓝色Download Latest这个button上,右击复制模型链接即可下载。

图片

组图1_2. civitai模型库界面

huggingface模型下载

step1: 打开https://huggingface.co/andite ,点击某个model.

图片

组图2_1. huggingface模型库界面

step2:找到File and version,点击想要下载的模型

图片

组图2_2. huggingface模型库界面

step3: 进入后,在download上右击复制地址链接

图片

组图2_3. huggingface模型库界面

step4: 得到模型url地址就可以用:aria2c工具下载

例如:aria2c https://huggingface.co/andite/anything-v4.0/resolve/main/anything-v4.0-pruned-fp16.safetensors

3. 网络控制和参数控制

之前的文章我们提到网络和参数都是影响图片最终生成效果的关键工序,这个部分我们可以使用Lora层和深度图层对生成过程的网络和参数进行控制。

Lora层

这里有太多东西可以说,但是基本都是要自己准备数据训练模型来实现。比较考验技术底子,说白了就是你想让模型学习什么。

要做真正工业应用的产品,而不只是toy自己训练模型是必须的。**利用好Lora可以给你带来事倍功半的效果。**我们可以把Lora当成功能分层,效果分层类似计算成像的管线路子效果可以做到很震撼。

链接: https://civitai.com/tag/lora

图片

图17. Lora层

深度图层

对图片生成深度图层,可以用在3D或者AR、VR虚拟生成,元宇宙世界中使用。或者可以用在游戏引擎中做角色建模,也可以在3d打印时候使用。

链接:https://github.com/thygate/stable-diffusion-webui-depthmap-script

图片

图18. 深度图层

4. 场景环境控制

此部分又包括:室内场景、室外场景、光照控制、色系控制。

5. Prompt扩写润色

如图所示,输入简短句子"a cute girl stand beside window,blender 3d",右边对话框出现描述这个girl的段落。

图片

图19. Prompt工具

链接:

https://huggingface.co/spaces/blairoreilly/merve-chatgpt-prompts-bart-long

https://huggingface.co/spaces/awacke1/PromptRefinery

3

图片生成后效处理工序

经过上述步骤,图片就初步形成,最后,就是要对生成的图片做修建、改进。这里涉及:

  • 多物体融合渲染
  • 多角色融合
  • 光照调整
  • 位置调整
  • 超分

(1)多物体融合渲染

链接:https://github.com/Extraltodeus/multi-subject-render

图片

图20. 多物体融合渲染

(2)多角色融合

链接:https://www.cs.cmu.edu/~custom-diffusion/

图片

图21. 多角色融合

(3)光照调整

可以通过风格调整来实现,对同一种光照图片做光照Lora

图片

图片

图22. 光照调整

(4)位置调整

角色适合放在场景图片什么位置:可以考虑objectdetector对相似背景下物体放置位置预估,然后吧角色放置合适位置,做后续融合处理。多角色融合时候和场景图片如何做位置调整:可以考虑objectdetector对相似背景下物体放置位置预估,然后吧角色放置合适位置,做后续融合处理

(5)超分

实现生成图片的尺寸放大,图片的高清晰度优化

链接:https://github.com/xinntao/ESRGAN

图片

图片

图23. 超分

4

studio易用性工具

最后,介绍几款简单易用、提高效率的小工具。

(1) 多语言插件

https://github.com/dtlnor/stable-diffusion-webui-localization-zh_CN

(2) aria2内容下载工具

高速稳定下载文件:https://aria2.github.io/

(3) 提效工具

批量prompt效果展示最佳选择—prompt,如图所示

https://github.com/dr413677671/PromptGallery-stable-diffusion-webui

图片

图24. Prompt提效工具

(4) 多参数最优效果选择

https://github.com/mcmonkeyprojects/sd-infinity-grid-generator-script

图片

图25. 多参数最优效果选择

看完上述内容,你是否学会了呢?喜欢记得关注、点赞、收藏三连键。AIFat持续为你提供有趣、有料的前沿内容。加油鸭~

本文转载自《打造Ai作图studio需要哪些工具》