AI绘画模型：anime-illust-diffusion-xl

发表于 2025-03-27 本文字数： 2.3k 阅读时长 ≈ 8 分钟

# AI绘画
# AI绘画模型：anime-illust-diffusion-xl

它这个模型有自己的使用方式，为了避免网站失效导致无法查看，我在这里也记录一份：

模型介绍（Chinese Part）

I 目录

在本介绍中，您将了解：

模型介绍（见 II 部分）；
使用指南（见 III 部分）；
训练参数（见 IV 部分）；
触发词列表（见附录 A 部分）

II 模型介绍

动漫插画设计XL，或称 AIDXL 是一款专用于生成二次元插图的模型。它内置了 800 种以上（随着更新越来越多）的插画风格，依靠特定触发词（见附录 A 部分）触发。

优点：构图大胆，没有摆拍感，主体突出，没有过多繁杂的细节，认识很多动漫人物（依靠角色日文名拼音触发，例如，“ayanami rei”对应角色“绫波丽”，“kamado nezuko”对应角色“祢豆子”）。

III 使用指南（将与时俱进）

1 基本用法

1.1 提示词书写

使用触发词：使用附录 A 所提供的触发词来风格化图像。适合的触发词将 极大地 提高生成质量；
提示词标签化：使用标签化的提示词描述生成对象；
提示词排序：排序您的提示词将有助于模型理解词义。推荐的标签顺序：

触发词（by xxx）->主角（1girl）->角色（frieren）->种族（elf）->构图（cowboy shot）->风格（impasto）->主题（fantasy）->主要环境（forest, day）->背景（gradient background）->动作（sitting）->表情（expressionless）->主要人物特征（white hair）->人体特征（twintails, green eyes, parted lip）->服饰（white dress）->服装配件（frills）->其他物品（magic wand）->次要环境（grass, sunshine）->美学（beautiful color, detailed, aesthetic）->质量（best quality）
负面提示词：worst quality_,_ low quality_,_ lowres_,_ messy, abstract, ugly, disfigured, bad anatomy, deformed hands, fused fingers, signature, text, multi views

1.2 生成参数

分辨率：确保图像总分辨率（总分辨率=高度x宽度）围绕1024*1024且宽和高均为32的倍数。例如，832x1216 (3:2), 1216x832 (3:2), 以及 1024x1024 (1:1)。
不进行“Clip Skip”操作，即 Clip Skip = 1。
采样器和步数：采用 “euler_ancester” 采样器（sampler），该组合在 webui 里称为 Euler A。在 7 CFG Scale 上采样 28 步。
仅需要使用模型本身，而不使用精炼器（Refiner）。
使用基底模型 vae 或 sdxl-vae。

2 特殊用法

2.1 泛风格化

0.7 版本归纳了若干相似插画画风，引入了泛风格触发词。泛风格触发词各代表一种常见动漫插画画风类别。

请注意，泛风格触发词并不一定符合其词义指代的美术含义，而是经过重新定义的特殊触发词。

2.2 角色

0.7 版本对强化训练了角色。部分角色触发词的还原度已经能够达到 lora 的效果，且能够很好地将角色概念与其本身的着装分离。

角色触发方式为 角色名 \(作品\)。例如，触发动画《赛博朋克：边缘行者》的女主角露西则使用 lucy \(cyberpunk\)；触发游戏《原神》中的角色甘雨则使用 ganyu \(genshin impact\)。这里，“lucy” 和 “ganyu” 为角色名，“\(cyberpunk\)” 和 “\(genshin impact\)” 则为对应角色的作品出处，括号使用斜杠"\"转义以防止被解释为提示词加权。对于部分角色，出处并非必要。

角色触发词请参照 selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co )。

在使用中，若仅靠单个角色触发词无法完全还原角色，则需要在提示词中添加该角色的主要特征。

角色触发词通常不会携带角色本身的着装特征，若要添加角色着装，则需要在提示词中添加衣物名。例如，游戏《碧蓝航线》中角色圣路易斯 ( st. louis \(luxurious wheels\) \(azur lane\) ) 的衣装触发可使用 silver evening gown, plunging neckline。类似地，您也能对任何角色添加其他角色的衣装标签。

2.3 质量标签

0.7 版本的质量和美学标签经过正式训练，在提示词中尾随它们将影响生成图像的质量。

0.7 版本正式训练并引入了质量标签，质量标签分为六个等级，由好到坏分别为：amazing quality, best quality, high quality, normal quality_,_ low quality 和 worst quality.

2.4 美学标签

0.7 版本起引入了美学标签，描述图像的特殊美学特征。

2.5 风格融合

您可以将一些样式合并到您的自定义样式中。 “合并”实际上意味着一次使用多种风格触发词。例如，chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

一些技巧：

控制风格的权重和顺序来调整最终风格。
尾随而非前置到提示词上。

3 注意事项

使用 SDXL 支持的 VAE 模型、文本嵌入（embeddings）模型和 Lora 模型。注意：sd-vae-ft-mse-original 不是支持 SDXL 的 vae；EasyNegative、badhandv4 等负面文本嵌入也不是支持 SDXL 的 embeddings；
对于 0.61 及以下版本：生成图像时，强烈推荐使用模型专用的负面文本嵌入（下载参见 Suggested Resources 栏），因其为模型特制，故对模型几乎仅有正面效果；
每个版本新增触发词将在当前版本效果相对较弱或不稳定。

IV 训练参数

以 SDXL1.0 为底模，使用大约 2w 张自己标注的图像在 5e-6 学习率，循环次数为 1 的余弦调度器上训练了约 100 期得到模型 A。之后在 2e-7 学习率，其余参数相同的条件下，训练得到模型 B。将模型 A 与 B 混合后得到 AIDXLv0.1 模型。

其他训练参数请参照英文版本的介绍。

V 特别鸣谢

算力赞助：感谢 @捏Ta 社区（捏Ta (nieta.art )）提供的算力支持；

数据支持：感谢 @秋麒麟热茶（KirinTea_Aki Creator Profile | Civitai）和 @风吟（Chenkin Creator Profile | Civitai）提供的大量数据支持；

没有它们就不会有 0.7 版本。

VI 更新日志

2023/08/08：AIDXL 使用与 AIDv2.10 完全相同的训练集进行训练，但表现优于 AIDv2.10。AIDXL 更聪明，能做到很多以 SD1.5 为底模型无法做到的事。它还能很好地区分不同概念，学习图像细节，处理对 SD1.5 来说难于登天的构图，几近完美地学习旧版 AID 无法完全掌握的风格。总的来说，它拥有比 SD1.5 更高的上限，我会继续更新 AIDXL。

2024/01/27：0.7 版本新增了大量内容，数据集大小是上一版本的两倍以上。

为了得到令人满意的标注，我尝试了很多新的标签处理算法，例如标签排序、标签分层随机化、角色特征分离等等。项目地址：Eugeoter/sd-dataset-manager (github.com )；
为了使训练可控，且更加服从我的意愿，我基于 Kohya-ss 制作了特制的训练脚本；
为了掌控不同世代的模型的融合过程，我开发了一些启发式的模型融合算法；为了使模型达到足够的风格化，我放弃了通过融合文本编码器和UNET的OUT层来提高模型的稳定和美学，因为这会伤害模型的风格。
为了筛选和过滤数据，我训练了一个水印检测模型、一个图像分类模型、一个美学评分模型，来帮助我清洗数据。

VII 赞助我们

如果您喜欢我们的工作，欢迎通过 Ko-fi(https://ko-fi.com/eugeai) 赞助我们，以支持我们的研究和开发，感谢您的支持！

Appendix / 附录

A. Special Trigger Words List / 特殊触发词列表

Art style trigger words: Click me
Painting style trigger words: flat color, clean color, celluloid, flat-pasto, thin-pasto, pseudo-impasto, impasto, realistic, photorealistic, cel shading, 3d
- flat color: Flat colors, using lines to describe light and shadow
  
  平涂：平面色彩，使用线条和色块描述光影和层次
- clean color: Style between flat color and flat-pasto. Simple and tidy coloring.
  
  具有简洁色彩的平涂，介于 flat color 和 flat-pasto 之间
- celluloid: Anime coloring
  
  平涂赛璐璐：动漫着色
- flat-pasto: Nearly flat color, using gradient color to describe lighting and shadow
  
  接近平面的色彩，使用渐变描述光影和层次
- thin-pasto: Thin contour, using gradient and paint thickness to describe light, shadow and layers
  
  细轮廓勾线，使用渐变和颜料厚度描述光影和层次
- pseudo-impasto：Use gradients and paint thickness to describe light, shadow and layers
  
  伪厚涂 / 半厚涂：使用渐变和颜料厚度描述光影和层次
- impasto：Use paint thickness to describe light, shadow and gradation
  
  厚涂：使用颜料厚度描述光影和层次
- realistic
  
  写实
- photorealistic：Redefined to a style closer to the real world
  
  相片写实主义：重定义为接近真实世界的风格
- cel shading: Anime 3D modeling style
  
  卡通渲染：二次元三维建模风格
- 3d
Aesthetic trigger words:
- beautiful
  
  美丽
- aesthetic: slightly abstract artistic sense
  
  唯美：稍微抽象的艺术感
- detailed
  
  细致
- beautiful color: subtle use of color
  
  协调的色彩：精妙的用色
- lowres
- messy: messy composition or details
  
  杂乱：杂乱的构图或细节
Quality trigger words: amazing quality, best quality, high quality, low quality, worst quality