生成一致角色 – Replicate 博客

fofr2025年7月21日大约 6 分钟

生成一致角色

直到最近，生成一致角色图像的最佳方式还是训练一个lora。你需要准备一组图片数据集，然后用它们训练FLUX lora。

如果再往前追溯，你可能还记得必须用ComfyUI工作流，结合SDXL、controlnet、IPAdapter和一些非商用的人脸关键点模型。现在一切都变得简单多了。

如今我们有多种最先进的图像模型，可以仅凭一张参考图就准确生成一致角色。本文将介绍哪些模型能做到这一点，以及根据你的需求如何选择最合适的模型。

她穿着一件印有“Replicate”字样的粉色T恤

参考图	输出图

“她穿着一件印有‘Replicate’字样的粉色T恤”

一致角色的最佳模型

截至2025年7月，Replicate上有4个模型可以仅凭一张参考图生成真实且准确的结果，按发布时间排序：

FLUX.1 Kontext 有多个版本：pro、max 和 dev。Dev 是开源版，更可控、可微调，但不如 pro 强大。

为写这篇博客，我还做了个小工具，方便对比输出。它会并行运行 FLUX.1 Kontext、SeedEdit 3.0、gpt-image-1 和 Runway Gen-4：fofr/compare-character-consistency。

（你知道任何人都可以在 Replicate 上创建和推送模型吗？）

价格与速度对比

先看最基本的：速度和价格。下表展示了各模型的价格和速度。gpt-image-1 的价格取决于输出质量（低、中、高），Gen-4 Image 则取决于分辨率（720p/1080p）。

总的来说，gpt-image-1 最慢也最贵，Kontext Dev 最快最便宜。质量则各有取舍，后文详述。

模型	单张价格	速度	日期
OpenAI gpt-image-1	$0.04–$0.17	16s–59s	2025年4月
Runway Gen-4 Image	$0.05–$0.08	20s–27s	2025年4月
Black Forest Labs FLUX.1 Kontext Pro	$0.04	5s	2025年5月
Black Forest Labs FLUX.1 Kontext Max	$0.08	7s	2025年5月
Black Forest Labs FLUX.1 Kontext Dev	$0.025	4s	2025年5月
字节跳动 SeedEdit 3	$0.03	13s	2025年7月

角色一致性对比

下面对比各模型保持角色一致性的能力。

本节对比中，gpt-image-1 采用高质量高保真设置，FLUX.1 Kontext 选用 Pro 版（质量与速度最佳平衡），Gen-4 Image 选用 1080p。

照片级准确性

以下是多组例子，展示各模型在照片输出上的优劣。

新活动场景

这两组例子中，Gen-4 的优势明显，构图最吸引人，角色最准确。

她在弹钢琴

参考图	输出图

“她在弹钢琴”

他在弹吉他

参考图	输出图

“他在弹吉他”

场景微调

如果只想改动场景中的小部分，所有模型都能很好应对。

移除饮料杯

参考图	输出图

“移除饮料杯”

半身像（异色瞳、双色发、面部特征）

更具挑战性的对比：角色有异色瞳、双色发和面部标记。

所有模型都能处理头发和眼睛（有的需要多试几次）。

夏日森林中的她，半身像照片

参考图	输出图

“夏日森林中的她，半身像照片”

剃须、雨衣与下雨

这次尝试让同一人剃须、穿雨衣、下雨。

结果有好有坏，只有 SeedEdit 3 和 gpt-image-1 能处理“剃须”请求，但 gpt-image-1 结果完全变成了另一个人。

移除胡须，穿雨衣，下雨

参考图	输出图

“移除胡须，穿雨衣，下雨”

纹身挑战

本例角色有大量独特纹身，考察各模型表现。没有哪个模型完美，Gen-4 和 gpt-image-1 颈部纹身保持得最好。

他是餐厅厨房里做饭的厨师

参考图	输出图

“他是餐厅厨房里做饭的厨师”

创意任务与风格变换

本节尝试将角色变成其他风格或形象。好的模型能在变换风格的同时保持角色一致性。

风格变换

简单风格变换下，Gen-4 不适合做风格化任务。

将此人变为动漫风

参考图	输出图

“将此人变为动漫风”

水彩画风格

参考图	输出图

“水彩画风格”

变身其他形象

万圣节到了。我们把她变成女巫，把他变成食人魔，还有人变成潘多拉的蓝色纳美人。Gen-4 的女巫效果最好，但食人魔最不真实。

让她变成女巫

参考图	输出图

“让她变成女巫”

让他变成绿色皮肤的食人魔

参考图	输出图

“让他变成绿色皮肤的食人魔”

本例中，Kontext Pro 不支持生成潘多拉蓝色纳美人，展示的是 Kontext Dev。

让他变成潘多拉的蓝色纳美人（阿凡达）

参考图	输出图

“让他变成潘多拉的蓝色纳美人（阿凡达）”

总结

总体来看：

Kontext Pro 多才多艺，效果出色，但人脸周围常有伪影，严重时会导致图片不可用（Kontext Dev 没有这些伪影，但整体质量略低）
gpt-image-1 总会带有明显的黄色调，即使开启高质量高保真，角色一致性也经常丢失。价格最高、速度最慢，仅推荐复杂任务时使用。
SeedEdit 3 通常会严格保持原始构图，难以提示新角度或场景。输出偏柔和，AI感较强，复杂场景下一致性也有问题。
Runway Gen-4 在照片类任务中最适合，角色还原度最高。缺点是复杂场景下容易出现多余的手臂、肢体，有时多试几次能修复，有时不能。Gen-4 不支持风格化任务。