Hermes + ComfyUI Skills 上手:让 Agent 生成图像,关键不是一句 Prompt

作者:Administrator 发布时间: 2026-05-01 阅读量:1

ComfyUI 的问题从来不是“能不能出图”。它能出图,而且能把模型、采样器、ControlNet、LoRA、VAE、放大、修脸、视频节点全部串起来。真正麻烦的是:节点越强,工作流越容易变成只有作者自己看得懂的一团线。

Hermes + ComfyUI Skills 的价值,不是让用户少写几个提示词,而是把“怎么搭工作流、怎么改参数、怎么验收输出”这套流程交给 Agent 执行,同时把关键配置留成可审计的文件。

换句话说,它不是替代 ComfyUI,而是给 ComfyUI 加一层会干活的操作员。

先分清三层东西

第一层是 ComfyUI 本体。它负责跑模型、调节点、接工作流、输出图片或视频。

第二层是 workflow JSON。它是 ComfyUI 真正可复用的资产。一个好工作流不只是“能跑”,还要知道哪些参数能改、依赖哪些模型、需要哪些自定义节点。

第三层才是 Agent Skill。Skill 负责告诉 Agent:遇到“生成图片”“批量出图”“改已有工作流”“检查缺失模型”时,应该按什么步骤操作,哪些命令先跑,哪些结果必须确认。

很多人把这三层混在一起,最后就会变成:Agent 写了一堆描述,ComfyUI 还是没跑起来;或者 ComfyUI 跑起来了,但下一次换图又得从头问。

最小可用链路

如果只是本地试用,先确认机器上是否真的适合跑 ComfyUI。没有合适 GPU,就别硬上本地环境,直接用云端或单独实验机。

BASH
python3 scripts/hardware_check.py --json

本地安装通常走 comfy-cli:

BASH
pipx install comfy-cli comfy --skip-prompt tracking disable comfy --skip-prompt install --nvidia comfy launch --background curl -s http://127.0.0.1:8188/system_stats

有了服务之后,不要急着让 Agent “随便生成一张图”。先准备一个 API 格式的 workflow JSON。ComfyUI 里要导出 API Format,不是普通编辑器格式。判断标准很简单:节点里应该有 class_type

BASH
python3 scripts/extract_schema.py workflow_api.json --summary-only python3 scripts/check_deps.py workflow_api.json

这两步很关键。前者告诉 Agent 哪些参数可控,后者告诉你缺哪些模型或节点。没有这个检查,后面大概率就是“跑一半报错,再让 Agent 盲修”。

Agent 适合接管的不是审美,而是重复动作

生图最容易翻车的地方,是把审美判断完全丢给 Agent。它可以帮你生成十张图,但哪一张适合品牌、哪一张构图更稳、哪一张不会踩版权或人物一致性问题,仍然需要人做判断。

Agent 更适合接管的是这些重复动作:

  • 根据需求选择基础工作流,比如 SDXL 文生图、img2img、inpaint、upscale。
  • 注入 prompt、negative prompt、seed、steps、denoise 等参数。
  • 批量跑多个 seed 或多组风格词。
  • 检查缺失模型和自定义节点。
  • 下载输出文件,整理命名,生成复盘记录。
  • 把稳定配置沉淀成下一次可复用的模板。

这才是 ComfyUI Skills 的真正用法:不是“一句话让 AI 变设计师”,而是把一套复杂的节点操作流程变成可重复的生产动作。

顺手提一嘴,像 ComfyUI、Agent 工作台、数据库恢复演练这类环境,最好别和生产业务混在一台机器上。单独开一台干净的实验服务器,把端口、模型、数据卷和日志都隔开,出问题也好回滚。雨云这类轻量云服务器拿来做 Agent/ComfyUI/数据库演练机比较顺手,临时扩容和重装都不心疼。

给 Agent 和开发实验单独留一台干净服务器
适合跑 ComfyUI、测试数据库恢复、部署 MCP/Agent 服务,环境隔离,重装方便。
查看雨云服务器方案 →

一个更稳的使用姿势

建议把工作目录整理成这样:

TEXT
comfy-project/ workflows/ product-shot-sdxl.json social-poster-batch.json inputs/ reference.png outputs/ notes/ prompt-log.md review.md

每次生成前,让 Agent 先做三件事:读 workflow schema,确认模型依赖,写一个本次生成计划。计划里至少包含目标、风格约束、输出数量、参数范围和验收标准。

BASH
python3 scripts/run_workflow.py \ --workflow workflows/product-shot-sdxl.json \ --args '{"prompt":"luxury watch on clean white background, soft studio light","seed":-1,"steps":30}' \ --output-dir outputs/product-shot

上面这段示例发布前要注意:实际执行时 JSON 里的参数名必须和你的 workflow schema 对得上。不同工作流节点命名不一样,不能盲抄。

真正要留档的是“为什么这样出”

ComfyUI 最值钱的资产不是某一张图,而是可复现的生成链路。哪个模型、哪个 LoRA、哪个 seed、哪些负面词、哪一版工作流、改过哪些节点,这些信息如果没有留档,团队下一次还是得重新摸。

所以 ComfyUI Skills 最适合和三类文件一起用:

  • workflow JSON:保存可执行结构。
  • prompt log:保存每次输入、seed、输出路径。
  • review notes:记录为什么某张图被选中,为什么某组参数被淘汰。

这样跑几轮之后,Agent 不只是“会帮你点按钮”,它会逐渐拥有一套项目自己的图像生产记忆。对于电商产品图、社媒模板、游戏概念图、教程封面,这比单次出图更有价值。

上线前别忽略边界

如果生成内容要对外发布,至少检查四件事:模型和素材授权、人物肖像边界、品牌元素一致性、输出尺寸和压缩质量。Agent 可以帮你列清单、跑批量、归档文件,但不能替你承担版权和品牌判断。

ComfyUI 本身是节点工作台,Hermes Skills 是操作纪律。两者合在一起,最理想的状态不是“AI 替你画图”,而是“每一次生成都能被复盘、复用、改进”。这才是生产环境真正缺的东西。