Hermes + ComfyUI Skills 上手：让 Agent 生成图像，关键不是一句 Prompt

ComfyUI 的问题从来不是“能不能出图”。它能出图，而且能把模型、采样器、ControlNet、LoRA、VAE、放大、修脸、视频节点全部串起来。真正麻烦的是：节点越强，工作流越容易变成只有作者自己看得懂的一团线。

Hermes + ComfyUI Skills 的价值，不是让用户少写几个提示词，而是把“怎么搭工作流、怎么改参数、怎么验收输出”这套流程交给 Agent 执行，同时把关键配置留成可审计的文件。

换句话说，它不是替代 ComfyUI，而是给 ComfyUI 加一层会干活的操作员。

先分清三层东西

第一层是 ComfyUI 本体。它负责跑模型、调节点、接工作流、输出图片或视频。

第二层是 workflow JSON。它是 ComfyUI 真正可复用的资产。一个好工作流不只是“能跑”，还要知道哪些参数能改、依赖哪些模型、需要哪些自定义节点。

第三层才是 Agent Skill。Skill 负责告诉 Agent：遇到“生成图片”“批量出图”“改已有工作流”“检查缺失模型”时，应该按什么步骤操作，哪些命令先跑，哪些结果必须确认。

很多人把这三层混在一起，最后就会变成：Agent 写了一堆描述，ComfyUI 还是没跑起来；或者 ComfyUI 跑起来了，但下一次换图又得从头问。

最小可用链路

如果只是本地试用，先确认机器上是否真的适合跑 ComfyUI。没有合适 GPU，就别硬上本地环境，直接用云端或单独实验机。

BASH

python3 scripts/hardware_check.py --json

本地安装通常走 comfy-cli：

BASH

pipx install comfy-cli
comfy --skip-prompt tracking disable
comfy --skip-prompt install --nvidia
comfy launch --background
curl -s http://127.0.0.1:8188/system_stats

有了服务之后，不要急着让 Agent “随便生成一张图”。先准备一个 API 格式的 workflow JSON。ComfyUI 里要导出 API Format，不是普通编辑器格式。判断标准很简单：节点里应该有 class_type。

BASH

python3 scripts/extract_schema.py workflow_api.json --summary-only
python3 scripts/check_deps.py workflow_api.json

这两步很关键。前者告诉 Agent 哪些参数可控，后者告诉你缺哪些模型或节点。没有这个检查，后面大概率就是“跑一半报错，再让 Agent 盲修”。

Agent 适合接管的不是审美，而是重复动作

生图最容易翻车的地方，是把审美判断完全丢给 Agent。它可以帮你生成十张图，但哪一张适合品牌、哪一张构图更稳、哪一张不会踩版权或人物一致性问题，仍然需要人做判断。

Agent 更适合接管的是这些重复动作：

根据需求选择基础工作流，比如 SDXL 文生图、img2img、inpaint、upscale。
注入 prompt、negative prompt、seed、steps、denoise 等参数。
批量跑多个 seed 或多组风格词。
检查缺失模型和自定义节点。
下载输出文件，整理命名，生成复盘记录。
把稳定配置沉淀成下一次可复用的模板。

这才是 ComfyUI Skills 的真正用法：不是“一句话让 AI 变设计师”，而是把一套复杂的节点操作流程变成可重复的生产动作。

顺手提一嘴，像 ComfyUI、Agent 工作台、数据库恢复演练这类环境，最好别和生产业务混在一台机器上。单独开一台干净的实验服务器，把端口、模型、数据卷和日志都隔开，出问题也好回滚。雨云这类轻量云服务器拿来做 Agent/ComfyUI/数据库演练机比较顺手，临时扩容和重装都不心疼。

给 Agent 和开发实验单独留一台干净服务器

适合跑 ComfyUI、测试数据库恢复、部署 MCP/Agent 服务，环境隔离，重装方便。

查看雨云服务器方案 →

一个更稳的使用姿势

建议把工作目录整理成这样：

TEXT

comfy-project/
  workflows/
    product-shot-sdxl.json
    social-poster-batch.json
  inputs/
    reference.png
  outputs/
  notes/
    prompt-log.md
    review.md

每次生成前，让 Agent 先做三件事：读 workflow schema，确认模型依赖，写一个本次生成计划。计划里至少包含目标、风格约束、输出数量、参数范围和验收标准。

BASH

python3 scripts/run_workflow.py \
  --workflow workflows/product-shot-sdxl.json \
  --args '{"prompt":"luxury watch on clean white background, soft studio light","seed":-1,"steps":30}' \
  --output-dir outputs/product-shot

上面这段示例发布前要注意：实际执行时 JSON 里的参数名必须和你的 workflow schema 对得上。不同工作流节点命名不一样，不能盲抄。

真正要留档的是“为什么这样出”

ComfyUI 最值钱的资产不是某一张图，而是可复现的生成链路。哪个模型、哪个 LoRA、哪个 seed、哪些负面词、哪一版工作流、改过哪些节点，这些信息如果没有留档，团队下一次还是得重新摸。

所以 ComfyUI Skills 最适合和三类文件一起用：

workflow JSON：保存可执行结构。
prompt log：保存每次输入、seed、输出路径。
review notes：记录为什么某张图被选中，为什么某组参数被淘汰。

这样跑几轮之后，Agent 不只是“会帮你点按钮”，它会逐渐拥有一套项目自己的图像生产记忆。对于电商产品图、社媒模板、游戏概念图、教程封面，这比单次出图更有价值。

上线前别忽略边界

如果生成内容要对外发布，至少检查四件事：模型和素材授权、人物肖像边界、品牌元素一致性、输出尺寸和压缩质量。Agent 可以帮你列清单、跑批量、归档文件，但不能替你承担版权和品牌判断。

ComfyUI 本身是节点工作台，Hermes Skills 是操作纪律。两者合在一起，最理想的状态不是“AI 替你画图”，而是“每一次生成都能被复盘、复用、改进”。这才是生产环境真正缺的东西。

Hermes + ComfyUI Skills 上手：让 Agent 生成图像，关键不是一句 Prompt

先分清三层东西

最小可用链路

Agent 适合接管的不是审美，而是重复动作

一个更稳的使用姿势

真正要留档的是“为什么这样出”

上线前别忽略边界

文章目录