2025年8月27日(現地時間)- ComfyUIで利用できる画像生成モデル 「Qwen-Image」がControlNet に対応したことが発表されました。
「Qwen-Image」は、AlibabaのQwenチームが開発した20Bパラメータの強力なオープンソースの画像生成基盤モデルで、特に、複雑なテキストレンダリングや精密な画像編集に優れ、日本語を含む多言語で高品質な出力が可能です。
ComfyUIでは、このQwen-Imageの性能をさらに引き出すための複数のControlNetオプションが利用可能です。
ここでは、ワークフローを紹介したいと思います。
ControlNetオプション機能比較
現在、Qwen-Imageで利用できる主要なControlNetには3つの選択肢があり、それぞれ特徴が異なります。目的に応じて最適なものを選択してください。
- ControlNet : 画像の構図、ポーズ、深度などの構造情報を「条件」として与え、生成プロセスを精密にガイドする技術です。元の画像を維持しつつ、プロンプトに沿った内容に変更したい場合に非常に強力です。
- モデルパッチ (DiffSynth): 基盤となる生成モデルの挙動を直接変更(パッチを適用)するアプローチです。特定の機能(例:インペイント)に特化しており、強力な効果を発揮しますが、機能ごとにモデルを切り替える必要があります。
- Control LoRA : LoRAは通常、画風やキャラクターを学習させる軽量な追加ファイルですが、これを「制御」に応用したのがControl LoRAです。元のモデルを変更せずに制御能力を付加できるため、柔軟性が高く、複数の制御を組み合わせやすいのが特徴です。
| 項目 | InstantX ControlNet | DiffSynth (Model Patch) | Union Control |
|---|---|---|---|
| タイプ | 統合ControlNetモデル | モデルパッチ | LoRAモデル |
| 特徴 | 1つの統合モデルで主要な4機能をカバー。 シンプルで扱いやすい。 | モデル自体にパッチを当てる方式。 機能ごとにファイルが分かれている。 | LoRAとして適用するため柔軟性が高い。 最も多くの制御タイプをサポート。 |
| サポート機能 | |||
| Canny | 〇 | 〇 | 〇 |
| ソフトエッジ | 〇 | ✕ | 〇 |
| 深度 (Depth) | 〇 | 〇 | 〇 |
| ポーズ | 〇 | ✕ | 〇 |
| インペイント | ✕ | 〇 | ✕ |
| Lineart | ✕ | ✕ | 〇 |
| Normal | ✕ | ✕ | 〇 |
各ControlNetの詳細ガイド
基本モデルの準備以下で紹介するControlNetを次の機能モデルが必要となります。
基本モデル (Qwen-Image):
📂 ComfyUI/
└── 📂 models/
├── 📂 diffusion_models/
│ ├── qwen_image_fp8_e4m3fn.safetensors
│ └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## 蒸留版
├── 📂 loras/
│ └── Qwen-Image-Lightning-8steps-V1.0.safetensors ## 8ステップ高速化LoRA
├── 📂 vae/
│ └── qwen_image_vae.safetensors
└── 📂 text_encoders/
└── qwen_2.5_vl_7b_fp8_scaled.safetensorsこれらの基本モデルのは Hugging Face または ModelScope からダウンロードできます。
diffusion_modelsのモデルのGGUF版はこちらから
InstantX ControlNet
InstantX ControlNetは、1つの統合モデルで主要な4つの制御(Canny, ソフトエッジ, 深度, ポーズ)に対応しており、構造に基づいた画像生成を手軽に始めることができます。
モデルのダウンロードと配置
このワークフローを利用するには、基本モデルと次のInstantX専用モデルが必要です。
InstantX専用追加モデル:
📂 ComfyUI/
└── 📂 models/
├── 📂 controlnet/
│ └── Qwen-Image-InstantX-ControlNet-Union.safetensors
├── 📂 checkpoints/ (または diffusion_models)
│ └── lotus-depth-d-v1-1.safetensors
└── 📂 vae/
└── vae-ft-mse-840000-ema-pruned.safetensors利用手順

ダウンロードしたJSONファイルをComfyUIにドラッグ&ドロップまたはテンプレートから選択してワークフローを読み込みます。
Load ControlNet ModelノードでQwen-Image-InstantX-ControlNet-Union.safetensorsが正しく読み込まれていることを確認します。- 入力画像をアップロードします。
- ワークフロー内のサブグラフ(深度マップ生成部分)で、Lotus DepthモデルとVAEが正しく読み込まれていることを確認します。
- 必要に応じて
strengthを変更して、対応する制御強度を調整します。 - 「Run」ボタンをクリックするか、ショートカット
Ctrl(Cmd) + Enterを使用してワークフローを実行します。
テンプレートでは、深度とCanny が用意されているようです。
comfyui_controlnet_auxなどのカスタムノードを使用して対応するソフトウェッジやポーズも利用可能です。
DiffSynth モデルパッチ
DiffSynth ControlNets は、これは厳密にはControlNetではなく、モデル自体にパッチを適用して制御を実現する方式です。
Canny、深度(Depth)、インペイント(Inpaint)の3つの異なる制御モードをサポートしています。
モデルのダウンロードと配置
このワークフローでは、基本モデルに加えて、以下のモデルパッチの中から使用したいものをダウンロードし、ComfyUI/models/model_patches/ フォルダに配置します。
- qwen_image_canny_diffsynth_controlnet.safetensors (Canny用)
- qwen_image_depth_diffsynth_controlnet.safetensors (深度用)
- qwen_image_inpaint_diffsynth_controlnet.safetensors (インペイント用)
利用手順
ControlNet 関連のワークフローを初めて使用する場合は、コントロール イメージをモデルで使用および認識できるようにするには、サポートされているイメージ形式に前処理する必要があることを理解する必要があります。

このパッチモデルは3つの異なるモデルに分かれているため、適切な画像前処理が行われるように、入力時に正しい前処理タイプを選択する必要があります。
Cannyモデルの利用手順

qwen_image_canny_diffsynth_controlnet.safetensorsがロードされていることを確認します。- 後続の処理のために入力画像をアップロードします。
- Cannyノードはネイティブの前処理ノードであり、設定したパラメータに従って入力画像を前処理し、生成を制御します。
- 必要に応じて、
QwenImageDiffsynthControlnetノードのstrengthを変更して、線画制御の強度を調整します。 - 「Run」ボタンをクリックするか、ショートカット
Ctrl(Cmd) + Enterを使用してワークフローを実行します。
Inpaintモデルの利用手順

Inpaintモデルでは、マスクエディタを使用してマスクを描画し、それを入力制御条件として使用する必要があります。
ModelPatchLoaderがqwen_image_inpaint_diffsynth_controlnet.safetensorsモデルをロードしていることを確認します。- 画像をアップロードし、マスクエディタを使用してマスクを描画します。対応するマスクがロードされるように、
Load Imageノードのmask出力をQwenImageDiffsynthControlnetのmask入力に接続する必要があります。 - ショートカット
Ctrl-Bを使用して、ワークフロー内の元のCannyノードをバイパスモードに設定し、対応するCannyノードの処理を無効にします。 CLIP Text Encoderに、マスクした領域を何に変更したいかを入力します。- 必要に応じて、
QwenImageDiffsynthControlnetノードのstrengthを変更して、対応する制御強度を調整します。 - 「Run」ボタンをクリックするか、ショートカット
Ctrl(Cmd) + Enterを使用してワークフローを実行します。
Union DiffSynth LoRA
Union DiffSynthは、LoRA(Low-Rank Adaptation)として機能するこのモデルで、最も多様な制御が可能です。
Canny, 深度, ポーズ, Lineart, ソフトエッジ, Normal, OpenPoseなど多くの機能がサポートされています。
モデルのダウンロードと配置
このワークフローでは、基本モデルに加えて、以下のLoRAモデルをダウンロードし、ComfyUI/models/loras/ フォルダに配置します。
- qwen_image_union_diffsynth_lora.safetensors(Comfy Org の再ホスト版 )
- DiffSynth-Studio/Qwen-Image-In-Context-Control-Union(元のモデル)
利用手順

ダウンロードしたJSONファイルをComfyUIにドラッグ&ドロップしてワークフローを読み込みます。
LoraLoaderModelOnlyノードでqwen_image_union_diffsynth_lora.safetensorsが正しく読み込まれていることを確認します。- 入力画像をアップロードします。
- CannyやOpenPoseなどの画像前処理を行います。ネイティブノードでサポートされていない処理には、comfyui_controlnet_aux のようなカスタムノードの利用が推奨されます。
- 「Run」ボタンをクリックするか、ショートカット
Ctrl(Cmd) + Enterを使用してワークフローを実行します。
※その他の制御の場合は画像処理部分も交換する必要があります。
次のストリーム配信で、Union DiffSynth LoRA のデモを見ることができます。他にも、Instant Xのデモンストレーションを通じて、複雑なワークフローを劇的に簡潔にする「サブグラフ」機能も紹介されています。
応用テクニック&ヒント
複数の制御を組み合わせる
異なる種類の制御情報をブレンドして、より複雑な指示をモデルに与えることができます。例えば、深度マップ(奥行き情報)とCanny(線画情報)を組み合わせることで、形状と立体感の両方を同時に制御できます。
- 各プリプロセッサー(例:
DepthAnything,Canny)で制御画像を生成します。 Image Blendノードを追加します。- 生成した2つの制御画像を
Image Blendノードの入力に接続します。 blend_mode(例:multiply, screen)やfactor(混合比率)を調整して、2つの画像をブレンドします。- ブレンドした画像をControlNetへの入力として使用します。

ControlNetの強度と適用範囲の調整
ControlNetの効果は、強度(strength)だけでなく、生成プロセスのどの段階で適用するかによっても大きく変化します。
- strength: ControlNetの効果の全体的な強さです。値を下げると効果が弱まります。
- start_percent: ControlNetの適用を開始するステップの割合です(0=最初から)。値を少し上げる(例: 0.15)と、初期ノイズからの自由な発想を促し、より創造的な結果になることがあります。
- end_percent: ControlNetの適用を終了するステップの割合です(1=最後まで)。値を少し下げる(例: 0.9)と、最終段階でモデルが細部を自由に調整できるようになり、より自然な仕上がりになることがあります。
Qwen Image ControlNet & LoRA, EasyCache and Context Window in ComfyUI

























コメント