【论文精读】ComfyUI-R1：探索用于工作流生成的推理模型

neverbiasu2025年6月12日大约 8 分钟

【论文精读】ComfyUI-R1：探索用于工作流生成的推理模型 (ComfyUI-R1: A Reasoning Model for ComfyUI Workflow Generation)

摘要

ComfyUI-R1是一个创新的推理模型，能将自然语言指令转换为结构复杂的ComfyUI工作流。通过结合精心构建的知识库和两阶段训练流程（监督微调和GRPO强化学习），该模型在格式有效性、节点选择和端到端性能方面表现卓越。

背景与研究目标

AIGC 工作流生成现状与挑战

AIGC 技术发展迅速，ComfyUI 等节点式工具广受欢迎，但手动构建复杂工作流门槛高。自动化面临任务范围局限、结构可靠性差及依赖商业 API 等挑战。

核心研究问题

本研究旨在解决以下核心问题：

如何准确映射自然语言需求到复杂可执行的 ComfyUI 工作流？
如何保证工作流结构正确性与节点选择合理性，克服幻觉？
能否基于开源模型构建高效、透明、可定制的自动化系统？
如何利用 CoT 推理等机制提升复杂规划能力？

主要贡献

ComfyUI-R1 模型的主要贡献：

首创推理模型：为 ComfyUI 工作流生成设计，实现自然语言到代码的端到端转换。
提升可靠性：通过创新训练与奖励，达 97% 格式有效性，缓解 LLM 幻觉。
扩展任务范围：构建综合知识库，支持图像、视频、3D 等多种 AIGC 应用。
方法论创新：验证长 CoT 推理、代码表示优越性，并成功应用 GRPO 及细粒度混合奖励。
推动 AIGC 民主化：自动化复杂工作流设计，降低 AI 艺术创作门槛。

方法与创新点

ComfyUI-R1 的核心在于其结构化推理、全面知识库及先进训练策略。

![我们介绍了 ComfyUI-R1，一个用于自动化工作流生成的大型推理模型。给定用户指令，ComfyUI-R1 执行长思维链推理，以生成 ComfyUI 工作流的代码表示。生成的工作流遵循正确的格式，成功执行，并生成与用户指令一致的图像。ComfyUI-R1 已集成到 https://github.com/AIDC-AI/ComfyUI-Copilot](https://github.com/AIDC-AI/ComfyUI-Copilot) 中

节点选择：从候选集中识别所需节点。
工作流规划：生成设计原理，阐述节点逻辑、连接与参数。
工作流的结构化代码表示：生成表示工作流结构的可执行的类 Python 代码。这种表示方式相较于传统的 JSON 格式，对于 LLM 处理而言，具有更丰富的语义和更高的紧凑性，能够更好地捕捉工作流中的逻辑依赖关系，因此更适合 LLM 的训练和生成任务。

知识库构建

节点知识库 (Node Knowledge Base)：
- 包含 7,238 个筛选后的有效节点（源自约 40,000 个原始节点）。对信息不足的节点，利用 Claude 3.5 Sonnet 生成了含类型、用法、参数释义的文档。
工作流知识库 (Workflow Knowledge Base)：
- 包含 3,917 个高质量工作流（源自 27,000 个原始工作流），经严格清洗（过滤、验证、GPT-4o 生成描述）获得。覆盖多模态任务，并存为 JSON 和类 Python 代码（后者用于训练）。

两阶段训练流程

以 Qwen2.5-Coder-7B-Instruct 为基础，采用两阶段训练：

阶段 1：监督微调 (SFT) 使模型适应 ComfyUI 领域知识与任务。

数据生成：为知识库工作流生成含用户指令、设计原理、代码的长 CoT 推理序列。
模拟节点检索：训练时提供含真实与无关节点的候选集，强迫模型学习准确选择。

阶段 2：使用 GRPO 的强化学习 (RL) 通过交互优化模型，提升工作流结构正确性与节点选择准确性。

GRPO：先进 RL 算法。
细粒度规则-指标混合奖励 (R_final)：结合格式 (R_format)、结构 (R_DAG)、节点保真度 (R_fidelity)、节点选择准确性 (R_correct)。结构错误则奖励为 -1，否则根据节点选择准确性给予正奖励，优先保证可用性。

实验与结果分析

ComfyUI-R1 在多项评估中均展现出卓越性能。

关键性能指标

格式有效性：ComfyUI-R1 达 97%，优于基础模型 (41%)，媲美 GPT-4o (89%) 和 Claude 3.5 Sonnet (97%)。
节点和图级别性能：节点 F1 (0.62) 和图 F1 (0.51) 均为最高，体现强大选择与连接能力。
端到端性能：ComfyBench 通过率 0.67，较 ComfyAgent (0.56) 提升 11%。

案例研究 (Case Studies)

以下案例进一步展示了 ComfyUI-R1 在实际应用中的效果：

消融研究 (Ablation Studies)

验证了关键组件有效性：

RL 训练 (GRPO)：格式有效性从 SFT 后的 95% 提升至 97%。
工作流的结构化代码表示：各项指标均优于 JSON。研究表明，这种类 Python 的结构化代码表示因其语义更丰富、结构更紧凑，更利于 LLM 理解和生成，从而在捕获逻辑依赖方面超越了 JSON 格式。
思维链推理 (CoT)：普遍惠及所有基线模型，证明其重要性。

下表展示了不同方法在各项指标上的性能对比：