ComfyUI 套件详情页主视觉 · zImageTurboBase v60 成品

Overview

项目说明

这不是一个工作流,是一份 30+ 个 ComfyUI 工作流的横向拼接套件——位于 ComfyUI_windows_portable/ComfyUI/user/default/workflows/,过去半年里跨 6 个主题、5 个上游模型生态、多次迭代沉淀下来。

6 个主题:

  • 基线出图:zImageTurboBase_v60/ 下 GGUF / bf16 双轨,同 LoRA 堆同 prompt 在两份模型上对照质量 vs 显存。
  • 单张分镜 + ColorMatch:把「分镜逻辑」与「色调家族」拆开,后期只改 ColorMatch 就能换品牌场景。
  • 姿态迁移:从 人物姿势迁移_clean.json 起,经 xc-pose-transfer v1→v5 五代、又转到 Qwen-Image-Edit 2511 AnyPose V2 → V3 ReActor → V4 FaceID 三代,共五代基础迭代,全代并存不被覆盖
  • Kontext 多图参考:Flux Kontext + StyleModel + CLIPVision + Nunchaku INT4 + ImageConcatMulti + 3 串联 KSampler,定位「快透透出图」。
  • SAM2 9 节点抠图:坐标点击式,9 个节点串完——抠图从「调重复参数」退化为「这里点一下」。
  • LTX 2.3 I2V 带音频:首末帧注入 + 音视频 latent 拼接 + GGUF 12GB 定点版。

5 个上游生态共存:Qwen-Image-Edit 2511 / Flux Kontext / LTX 2.3 / Wan Animate / SAM2。不绑定任何一家,各担一面。

12GB 显存约束被翻译成设计约束:所有主力工作流提供 GGUF 双轨;Wan Animate 用 BlockSwap 跳块加载;Kontext 上 Nunchaku INT4 加速;LTX I2V 明示标「12GB」。让「这套能不能跑」从「赌云 GPU 可用率」变成「本地几分钟出一张」。

「同参考图 → 静帧 → 视频 → 抠图」端到端:Hero shot 被设计为跨工作流可复用的「身份锚点」,Qwen LoRA 堆在工作流之间不重堆,颜色 / 艳度 / 背景质感在不同工作流间能被识别为同一个主体。

这一套的真正交付物不是 30+ 个 JSON 文件,而是一份沿同一审美约束、跨多模型、多代迭代后能并排对照的判断库——每个工作流都是一次「为什么这样组合节点」的可执行表述,JSON 一旦存盘,审美判断就不会随口头描述变模糊。

配图说明:封面与详情主视觉是 zImageTurboBase v60 在 bf16 模型上的基线出图;process 步骤里穿插了 Qwen-Image-Edit 2511 AnyPose 姿态迁移成品和 LTX 2.3 I2V 起始帧——以同一套件的真实输出展示「同一审美在不同工作流上的延续」。

Process

制作流程

每个详情页都把真正重要的步骤拆开,不只展示结果,也展示判断是如何形成的。

zImageTurboBase v60 在 bf16 模型上的基线出图样本
01

基线出图:zImageTurboBase v60 GGUF / bf16 双轨

`zImageTurboBase_v60/` 下四份工作流(ZImgBasicV6 / ZImgBasicGGUFV6 / ZImgV6 / ZImgGGUFV6),同一套 LoRA 堆 + Lightning 调参,bf16 版走原生模型、GGUF 版走 12GB 量化。两轨并存是为了“同一 prompt 在两份模型上对照质量 vs 显存」、让试机期快、交付期鲁棒。这一步释出的间接产物是定点参考图,后面所有姿态迁移、Kontext、I2V 都以它为起点。

02

单张分镜 + ColorMatch 后处理

`单张分镜工作流.json` 负责从一张起点图 + 一段 prompt 出多个分镜候选,`_ColorMatch 版本」加了 LayerColor 路径,把多张分镜拉回同一个色温家族。“分镜是内容 / 色调是品牌」这个拆分,让后期迭代只需改 ColorMatch 参数就能换一个品牌场景,不动分镜逻辑。

03

xc-pose-transfer v1→v5 五代迭代

从 `人物姿势迁移_clean.json` 开始,经 v2.5_fixed → v4(背景尺寸)→ v5(clean / 3d-editor / final / FIXED)五代迭代。每代修的都是一个具体问题:v2.5 修节点连接 bug、v4 修背景尺寸吇位、v5 3d-editor 加 OpenPose 3D 编辑器、v5 FIXED 修 Qwen 模型升级后的 LoRA 适配问题。五代并存不被覆盖,反者可对照。

Qwen-Image-Edit 2511 AnyPose 姿态迁移成品 · 参考图 + pose 联合控制
04

Qwen-Image-Edit 2511 AnyPose:V2 → V3 ReActor → V4 FaceID

Qwen-Image-Edit 2511 表现出对指定姿势可控后,姿态迁移从 `xc_姿势迁移Qwen-Image-Edit-2511-AnyPose-V2.json`(33 节点)→ V3 ReActor(34 节点,加 ReActorFaceSwap 换脸)→ V4 FaceID(35 节点,加 CFGNorm + ModelSamplingAuraFlow + 多 LoRA 堆)。核心节点是 TextEncodeQwenImageEditPlus + FluxKontextMultiReferenceLatentMethod + ReferenceLatent + KSampler,「参考图 + pose 图 + 文本 prompt」三路输入联合控制。

05

Kontext 多图参考:Flux Kontext + Style + CLIPVision + Nunchaku INT4

`Kontext快速出图comfyui人物动作迁移工作流.json`(60 节点):NunchakuFluxDiTLoader 走 Nunchaku INT4 加速 + StyleModelLoader + CLIPVisionLoader + ImageConcatMulti 多图拼接 + FluxKontextImageScale + 3 个串联 KSampler。定位是「快透透出图」——Qwen AnyPose 走“身份准”,Kontext 走“出货快”,二者互补。

06

SAM2 9 节点坐标点击抠图(极简)

`xc_SAM2_坐标抠图.json` 只有 9 个节点:AILab_LoadImage → DownloadAndLoadSAM2Model → Sam2Segmentation(接受坐标点 prompt)→ MaskToImage / InvertMask → JoinImageWithAlpha → SaveImage。抠图从「调重复参数 / 画遮罩」退化为「这里点一下」,后期抠图成本接近零。

LTX 2.3 I2V 流水线起始帧样本 · 单张分镜驱动 30 秒带音频视频
07

LTX 2.3 I2V 带音频 + 首末帧注入

`xc单张分镜带音频生视频LTX2.3 I2V GGUF 12GB.json` 是套件里最复杂的:LTXVImgToVideoInplace ×2(首末帧注入)、LTXVConcatAVLatent ×2(音视频 latent 拼接)、LTXVAudioVAEDecode、LTXVEmptyLatentAudio、LTXVPreprocess、SamplerCustomAdvanced ×2、CreateVideo。GGUF 量化让这一套在 12GB 显存上可跑。另有 `xc首末帧带音频video_ltx2_3_flf2v.json` 与 `LTX-2.3_-_FL2V_First_Last_Frame_Injection.json` 多版本。

Thinking

设计思路

这里说明为什么这样做,而不是只列出做了哪些动作。

工作流不是工具,是「被出版的判断」

ComfyUI 节点图最重要的价值不是「能跑起来」,是「把决策备下来」。为什么这个节点在这里、为什么 LoRA 是这个顺序、为什么 CFG 必须归一化——都是被参数表达出来的审美判断。JSON 一旦存盘,那套判断就不会随着口头描述变模糊。

同一目标多代迭代:让 v1 与 v5 能对照

姿态迁移 v1 → V4 FaceID 五代都保留,不覆盖不删除。这与「作品集 v1 画面」是同一逻辑:只有并存才能对照,只有对照才能说「为什么 V4 要加 FaceID + CFGNorm」。「二选一升级」会丢掉迭代的设计动机,「并存升级」保留了它。

不绑定单一上游模型:各取所长

Qwen-Image-Edit 2511 对指定姿势可控;Flux Kontext 快透透出图;LTX 2.3 带音频 I2V;Wan Animate 高级动作迁移;SAM2 点击抠图。都不是互斥的选择,是各担一面。套件的价值是「多生态并存 + 跨生态审美守一致」,而不是赌一个上游模型能包揽一切。

GGUF 量化 = 硬件约束翻译为设计约束

12GB 显存(NVIDIA 入门级)不是忍受约束,是设计约束。所有 主力工作流都提供 GGUF 双轨版本(`*BasicGGUFV6` / `*GGUFV6`);Wan Animate 用 BlockSwap 让大模型可跳块加载;Kontext 上 Nunchaku INT4 加速;LTX I2V 明示标「12GB」。这让「这套能不能跑」从「赌云 GPU 可用率」变成「本地几分钟出一张」。

同参考图不同工作流:「身份证」跨个能力不变

套件的隐含约束是「同一张参考图能走完静帧 → 视频 → 抠图三个能力」。为此,Hero shot 被设计为跨工作流可复用的「身份锚点」,Qwen LoRA 堆 在 工作流之间不重堆,颜色 / 艳度 / 背景质感在不同工作流间能被识别为同一个主体。

保留 fixed / clean 双版本是工程现实主义

“clean”是场景最纯净的最小可跑版;“fixed”是被实际 bug 重击过、加了避坎节点后的生产版。同时保留是为了「下一个人(或未来的自己)」:看 clean 理解结构,看 fixed 理解「为什么加这些」。犹如「代码与注释」并存。

Result

交付与结果

交付内容
  • 30+ 个可复跑的 ComfyUI 工作流 JSON,按主题分档存档(姿态迁移 / I2V / Kontext / SAM2 / 基线出图)
  • 姿态迁移五代迭代(v1 clean / v2 / v3-editor / v4 final / V4 FaceID),每代都保留 fixed / clean 双版本
  • LTX 2.3 I2V 带音频流水线:首末帧注入 + 音视频 latent 拼接 + 12GB 显存 GGUF 定点版
  • SAM2 9 节点极简抠图:点击式坐标 → Sam2Segmentation → MaskToImage → JoinImageWithAlpha
  • zImageTurboBase v60 双轨基线(GGUF / bf16),可复用 LoRA 堆 + Lightning 调参模板
项目结果
  • 「静帧 → 视频 → 抠图」三个能力沿同一张参考图走完,不需要在工具间反复倒手工传递
  • GGUF 量化 + Nunchaku INT4 + Block Swap 让所有工作流在 12GB 显存上可跑,不依赖云端 GPU
  • 姿态迁移从 v1 到 V4 FaceID 五代迭代让「人物身份稳定性」从「随机脸」升级到「实人脸 + 身体姿势可控」
  • 不绑定单一上游模型:Qwen / Flux Kontext / LTX / Wan / SAM2 五生态各取所长,跨平台审美守一致