
SD XL 一直受到 CLIP 的困扰--我认为至少这部分是事实。最近的模型在自然语言方面显示出一些潜力,比如理解"左边是红色,右边是蓝色"。然而,由于CLIP没有使用自然语言句子进行训练,基础SD XL及其微调变体在处理自然语言方面受到了显著限制。
Flux和SD3等DiT模型与T5结合表现出更好的能力。特别是,已经证明T5在处理自然语言信息以正确生成文本或组合方面非常重要。然而,T5 非常大而且仍然有限,因此有人尝试直接使用 LLM 作为文本编码器。此外,DiT模型也非常庞大。即使没有T5,12B参数的模型也不太实用,这一点与SD XL非常相似。
流匹配(Flow matching)也很有趣。然而,DiT 的直观结构似乎不可避免地促成了许多有用的研究。不幸的是,与SD XL结合的流匹配并未显示支持这一点的证据;相反,它引发了更多关于SD XL的VAE问题的疑问。
2025年4月18日大约 4 分钟