今日,我们荣幸地发布 FLUX.1 Kontext ,这是一套创新的生成式流匹配模型,能够帮助用户生成和编辑图像。与现有的文本转图像模型不同, FLUX.1 Kontext 系列模型能够进行所谓 in-context 的图像生成,允许用户同时使用文本和图像作为输入提示,并能无缝提取和修改视觉概念,从而创造出全新的、协调一致的图像作品。

今日,我们荣幸地发布 FLUX.1 Kontext ,这是一套创新的生成式流匹配模型,能够帮助用户生成和编辑图像。与现有的文本转图像模型不同, FLUX.1 Kontext 系列模型能够进行所谓 in-context 的图像生成,允许用户同时使用文本和图像作为输入提示,并能无缝提取和修改视觉概念,从而创造出全新的、协调一致的图像作品。
SD XL 一直受到 CLIP 的困扰--我认为至少这部分是事实。最近的模型在自然语言方面显示出一些潜力,比如理解"左边是红色,右边是蓝色"。然而,由于CLIP没有使用自然语言句子进行训练,基础SD XL及其微调变体在处理自然语言方面受到了显著限制。
Flux和SD3等DiT模型与T5结合表现出更好的能力。特别是,已经证明T5在处理自然语言信息以正确生成文本或组合方面非常重要。然而,T5 非常大而且仍然有限,因此有人尝试直接使用 LLM 作为文本编码器。此外,DiT模型也非常庞大。即使没有T5,12B参数的模型也不太实用,这一点与SD XL非常相似。
流匹配(Flow matching)也很有趣。然而,DiT 的直观结构似乎不可避免地促成了许多有用的研究。不幸的是,与SD XL结合的流匹配并未显示支持这一点的证据;相反,它引发了更多关于SD XL的VAE问题的疑问。
在竞争激烈的游戏开发世界中,紧跟技术进步至关重要。生成式AI已经成为游戏规则的改变者,为游戏设计师提供了前所未有的机会,使他们能够突破界限并创造身临其境的虚拟世界。在这场革命的前沿是Stability AI的尖端文本到图像AI模型——Stable Diffusion 3.5 Large (SD3.5 Large),它正在彻底改变我们创建游戏环境的方式。
SD3.5 Large可在Amazon Bedrock上使用,是Stability AI迄今为止最先进的文本到图像模型。拥有81亿参数,该模型擅长从文本描述生成高质量的百万像素图像,具有卓越的提示符合性,使其成为快速创建详细游戏环境的理想选择。其改进的架构基于多模态扩散变换器(MMDiT),结合多个预训练文本编码器以增强文本理解能力,并使用QK归一化来提高训练稳定性。
Illustrious XL 1.0-2.0系列旨在稳定1536分辨率的原生生成,同时显著提高自然语言理解能力。
虽然用户有时会观察到在1024x1536分辨率下能成功生成,但这些并不稳定。同样,512x512分辨率的生成偶尔也会产生不必要的伪影。
这些不一致的根本原因很简单:模型未在这些分辨率上进行有效泛化或训练。使用小数据集填补这些空白往往会导致在某些分辨率上过拟合。这意味着模型会将特定分辨率与特定概念关联起来,使其在多样化生成时变得不可靠。
一个有用的比喻是"广角效果"。如果数据集通常包含广角镜头,当给定广角分辨率时,模型自然会生成更小的人物,因为这是它学习泛化的方式。