Image Generation 分类

Illustrious XL 3.0-3.5-vpred: 2048分辨率与自然语言

Illustrious XL 3.0-3.5-vpred 标志着 Stable Diffusion XL（SD XL）模型的一项重大进展，显著支持从 256 到 2048 分辨率的无缝扩展。特别是 v3.5-vpred 变体，在自然语言理解能力上达到了类似于迷你大型语言模型（LLMs）的精细程度，这是通过对 CLIP 与 UNet 组件的广泛同时训练实现的。

训练目标与概述：eps 与 vpred

Illustrious v3.0-v3.5 系列设计了两种不同的训练目标以探索行为差异：

V3.0-epsilon 使用 epsilon 预测（噪声预测），确立了作为未来训练任务（尤其是与 LoRA 训练兼容）稳定"基底"模型的地位。该模型在默认状态下输出的风格较 vpred 变体更具特色，在某些美学评分中有时表现最佳。
V3.0-vpred 则采用 velocity 预测（v 参数化），展示出更强的组合理解能力，但最初伴随着严重问题，包括灾难性遗忘、领域偏移、颜色过饱和以及因零终端 SNR（Zero Terminal SNR）实现失误而导致的色板崩溃。
V3.5-vpred 则在实验性设置下训练，试图缓解上述问题。该模型显示出颜色更稳定，但并不天然生成鲜艳色彩，其功能已转移至特定的控制令牌（controlling tokens）。

Angelbottomless2025年3月22日大约 13 分钟