【论文精读】NoHumansRequired:高质量图像编辑的自主三元组挖掘
大约 5 分钟
【论文精读】NoHumansRequired:高质量图像编辑的自主三元组挖掘

摘要
NHR提出了全自动高质量图像编辑三元组挖掘管道,结合Gemini验证器和反转、组合增强,构建了35.8万三元组的NHR-Edit数据集。该方法提升了训练效率,为图像编辑模型提供了高保真数据支持。
目录
背景与研究目标
- 领域背景:近年来,生成式建模的快速发展使得基于自然语言指令的图像编辑助手成为可能。然而,现有方法在生成高质量训练数据时面临诸多挑战,如编辑区域的精确性、风格一致性和物理合理性。
- 研究目标:本文旨在通过完全自动化的方式,解决传统数据生成方法依赖人工标注的瓶颈,构建一个高质量、可扩展的图像编辑三元组数据集,为生成式模型的训练提供高效支持。
方法与创新点
方法整体流程

端到端、完全自动化的图像编辑三元组挖掘流程:
- 使用提示工程模块生成一致的文本到图像(T2I)和图像到图像(I2I)指令。
- 通过高保真T2I生成器生成候选源图像。
- 对每条指令进行多次编辑尝试,生成大量候选三元组。
- 使用两阶段验证框架筛选高质量三元组。
两阶段、基于微调模型的验证框架:
- 第一阶段:通过任务调优的Gemini验证器对候选三元组进行初步筛选,确保其符合美学质量和指令遵循性。
- 第二阶段:进一步利用高精度验证器对通过初筛的三元组进行细化筛选,剔除潜在的低质量样本。
创新的自动化数据增强策略:
- 反转增强:通过逻辑反转编辑指令生成新的三元组,扩展数据多样性。
- 组合增强:将多个成功编辑结果组合,生成复杂的复合指令,提升数据集的覆盖范围。
NHR-Edit数据集:
- 包含35.8万高质量三元组,涵盖多种编辑类型和风格。
- 数据集的几何平均分达到4.53,显著高于其他公开数据集。
- 数据集的多样性和高保真度为生成式模型的训练提供了强有力的支持。
主要创新点
任务调优的Gemini验证器:
- 通过微调Gemini-2.0-flash模型,显著提升了对编辑质量的敏感性。
- 验证器结合了美学质量和指令遵循性评分,确保数据集的高保真度。
反转与组合增强:
- 利用编辑指令的逻辑反转生成新的三元组。
- 通过组合多个成功编辑结果,构建复杂的复合指令。
完全自动化:
- 无需依赖外部分割、深度估计或定位模型,简化了数据生成流程。
实验与结果分析
实验设置
- 数据集:NHR-Edit数据集包含35.8万高质量三元组,涵盖多种编辑类型和风格。下图展示了数据集中编辑操作和图像风格的分布情况。
- 基线模型:使用BAGEL模型及其微调版本BAGEL-NHR-EDIT进行评估。
- 评估基准:在GEdit-Bench和ImgEdit-Bench等多个基准上进行评估,重点考察指令遵循性、编辑质量和细节保留能力。
实验结果
模型性能与验证器评估:
- 论文对模型性能和验证器进行了综合评估。如下图所示,验证器在美学和指令遵循性方面的预测与真实评分高度一致,混淆矩阵的强对角线证明了其可靠性。
- 此外,通过对NHR-Edit数据集进行微调,BAGEL模型在多个基准上均取得了显著的性能提升。
- 论文对模型性能和验证器进行了综合评估。如下图所示,验证器在美学和指令遵循性方面的预测与真实评分高度一致,混淆矩阵的强对角线证明了其可靠性。
消融实验与阈值选择:
- 为了验证数据增强策略的有效性并确定最佳筛选阈值,论文进行了消融实验。如下图所示,在4.7的评分阈值下,模型在精确率和召回率之间取得了良好平衡。
- 为了验证数据增强策略的有效性并确定最佳筛选阈值,论文进行了消融实验。如下图所示,在4.7的评分阈值下,模型在精确率和召回率之间取得了良好平衡。
验证器性能分析:
- 论文进一步分析了Gemini验证器的性能。结果显示,验证器对于高质量样本的评估误差(MAE)显著低于低质量样本,这对于筛选高质量数据至关重要,确保了NHR-Edit数据集的整体质量。
- 论文进一步分析了Gemini验证器的性能。结果显示,验证器对于高质量样本的评估误差(MAE)显著低于低质量样本,这对于筛选高质量数据至关重要,确保了NHR-Edit数据集的整体质量。
模型启发与方法延伸
通用性:
- 方法适用于多种生成式模型,无需依赖特定架构。
- 数据集涵盖真实和合成图像,具有广泛的适用性。
潜在应用:
- 可用于训练更强大的基于指令的图像编辑模型。
- 为生成式模型的自我改进提供了新的思路。
结论与未来展望
论文贡献:
- 提出了一个完全自动化的高质量三元组挖掘管道。
- 构建了目前最大的高质量图像编辑三元组数据集NHR-Edit。
未来方向:
- 将方法扩展到真实用户数据,进一步提升模型的实用性。
- 探索更高效的验证和增强策略,降低计算成本。