
Illustrious XL 3.0-3.5-vpred 标志着 Stable Diffusion XL(SD XL)模型的一项重大进展,显著支持从 256 到 2048 分辨率的无缝扩展。特别是 v3.5-vpred 变体,在自然语言理解能力上达到了类似于迷你大型语言模型(LLMs)的精细程度,这是通过对 CLIP 与 UNet 组件的广泛同时训练实现的。
训练目标与概述:eps 与 vpred
Illustrious v3.0-v3.5 系列设计了两种不同的训练目标以探索行为差异:
-
V3.0-epsilon 使用 epsilon 预测(噪声预测),确立了作为未来训练任务(尤其是与 LoRA 训练兼容)稳定"基底"模型的地位。该模型在默认状态下输出的风格较 vpred 变体更具特色,在某些美学评分中有时表现最佳。
-
V3.0-vpred 则采用 velocity 预测(v 参数化),展示出更强的组合理解能力,但最初伴随着严重问题,包括灾难性遗忘、领域偏移、颜色过饱和以及因零终端 SNR(Zero Terminal SNR)实现失误而导致的色板崩溃。
-
V3.5-vpred 则在实验性设置下训练,试图缓解上述问题。该模型显示出颜色更稳定,但并不天然生成鲜艳色彩,其功能已转移至特定的控制令牌(controlling tokens)。
2025年3月22日大约 13 分钟