![如何创建原创角色 LoRA [SDXL 训练] SDXL 角色训练封面图片](http://digitalcreativeai.net/_next/image?url=https%3A%2F%2Fdca.data-hub-center.com%2Fcontent%2Fuploads%2F2025%2F05%2Feye_catch_original-character-lora-sdxl-character-training-en.jpg&w=3840&q=80)
![如何创建原创角色 LoRA [SDXL 训练] SDXL 角色训练封面图片](http://digitalcreativeai.net/_next/image?url=https%3A%2F%2Fdca.data-hub-center.com%2Fcontent%2Fuploads%2F2025%2F05%2Feye_catch_original-character-lora-sdxl-character-training-en.jpg&w=3840&q=80)

Illustrious XL 3.0-3.5-vpred 标志着 Stable Diffusion XL(SD XL)模型的一项重大进展,显著支持从 256 到 2048 分辨率的无缝扩展。特别是 v3.5-vpred 变体,在自然语言理解能力上达到了类似于迷你大型语言模型(LLMs)的精细程度,这是通过对 CLIP 与 UNet 组件的广泛同时训练实现的。
训练目标与概述:eps 与 vpred
Illustrious v3.0-v3.5 系列设计了两种不同的训练目标以探索行为差异:
-
V3.0-epsilon 使用 epsilon 预测(噪声预测),确立了作为未来训练任务(尤其是与 LoRA 训练兼容)稳定"基底"模型的地位。该模型在默认状态下输出的风格较 vpred 变体更具特色,在某些美学评分中有时表现最佳。
-
V3.0-vpred 则采用 velocity 预测(v 参数化),展示出更强的组合理解能力,但最初伴随着严重问题,包括灾难性遗忘、领域偏移、颜色过饱和以及因零终端 SNR(Zero Terminal SNR)实现失误而导致的色板崩溃。
-
V3.5-vpred 则在实验性设置下训练,试图缓解上述问题。该模型显示出颜色更稳定,但并不天然生成鲜艳色彩,其功能已转移至特定的控制令牌(controlling tokens)。

简介
Illustrious XL 1.0-2.0系列旨在稳定1536分辨率的原生生成,同时显著提高自然语言理解能力。
虽然用户有时会观察到在1024x1536分辨率下能成功生成,但这些并不稳定。同样,512x512分辨率的生成偶尔也会产生不必要的伪影。
早期版本为何不稳定?
这些不一致的根本原因很简单:模型未在这些分辨率上进行有效泛化或训练。使用小数据集填补这些空白往往会导致在某些分辨率上过拟合。这意味着模型会将特定分辨率与特定概念关联起来,使其在多样化生成时变得不可靠。
一个有用的比喻是"广角效果"。如果数据集通常包含广角镜头,当给定广角分辨率时,模型自然会生成更小的人物,因为这是它学习泛化的方式。