ad

ComfyUI、Qwen-Image ControlNet をネイティブサポート!ワークフローを紹介!

CGソフト

2025年8月27日(現地時間)- ComfyUIで利用できる画像生成モデル 「Qwen-Image」がControlNet に対応したことが発表されました。

「Qwen-Image」は、AlibabaのQwenチームが開発した20Bパラメータの強力なオープンソースの画像生成基盤モデルで、特に、複雑なテキストレンダリングや精密な画像編集に優れ、日本語を含む多言語で高品質な出力が可能です。

ComfyUIでは、このQwen-Imageの性能をさらに引き出すための複数のControlNetオプションが利用可能です。

ここでは、ワークフローを紹介したいと思います。

ControlNetオプション機能比較

現在、Qwen-Imageで利用できる主要なControlNetには3つの選択肢があり、それぞれ特徴が異なります。目的に応じて最適なものを選択してください。

  • ControlNet : 画像の構図、ポーズ、深度などの構造情報を「条件」として与え、生成プロセスを精密にガイドする技術です。元の画像を維持しつつ、プロンプトに沿った内容に変更したい場合に非常に強力です。
  • モデルパッチ (DiffSynth): 基盤となる生成モデルの挙動を直接変更(パッチを適用)するアプローチです。特定の機能(例:インペイント)に特化しており、強力な効果を発揮しますが、機能ごとにモデルを切り替える必要があります。
  • Control LoRA : LoRAは通常、画風やキャラクターを学習させる軽量な追加ファイルですが、これを「制御」に応用したのがControl LoRAです。元のモデルを変更せずに制御能力を付加できるため、柔軟性が高く、複数の制御を組み合わせやすいのが特徴です。
項目InstantX ControlNetDiffSynth (Model Patch)Union Control
タイプ統合ControlNetモデルモデルパッチLoRAモデル
特徴1つの統合モデルで主要な4機能をカバー。
シンプルで扱いやすい。
モデル自体にパッチを当てる方式。
機能ごとにファイルが分かれている。
LoRAとして適用するため柔軟性が高い。
最も多くの制御タイプをサポート。
サポート機能
Canny
ソフトエッジ
深度 (Depth)
ポーズ
インペイント
Lineart
Normal

各ControlNetの詳細ガイド

基本モデルの準備以下で紹介するControlNetを次の機能モデルが必要となります。

基本モデル (Qwen-Image):

📂 ComfyUI/
└── 📂 models/
    ├── 📂 diffusion_models/
    │   ├── qwen_image_fp8_e4m3fn.safetensors
    │   └── qwen_image_distill_full_fp8_e4m3fn.safetensors ## 蒸留版
    ├── 📂 loras/
    │   └── Qwen-Image-Lightning-8steps-V1.0.safetensors    ## 8ステップ高速化LoRA
    ├── 📂 vae/
    │   └── qwen_image_vae.safetensors
    └── 📂 text_encoders/
        └── qwen_2.5_vl_7b_fp8_scaled.safetensors

これらの基本モデルのは Hugging Face または ModelScope からダウンロードできます。

diffusion_modelsのモデルのGGUF版はこちらから

InstantX ControlNet

InstantX ControlNetは、1つの統合モデルで主要な4つの制御(Canny, ソフトエッジ, 深度, ポーズ)に対応しており、構造に基づいた画像生成を手軽に始めることができます。

モデルのダウンロードと配置

このワークフローを利用するには、基本モデルと次のInstantX専用モデルが必要です。

InstantX専用追加モデル:

📂 ComfyUI/
└── 📂 models/
    ├── 📂 controlnet/
    │   └── Qwen-Image-InstantX-ControlNet-Union.safetensors
    ├── 📂 checkpoints/ (または diffusion_models)
    │   └── lotus-depth-d-v1-1.safetensors
    └── 📂 vae/
        └── vae-ft-mse-840000-ema-pruned.safetensors

利用手順

ダウンロードしたJSONファイルをComfyUIにドラッグ&ドロップまたはテンプレートから選択してワークフローを読み込みます。

  1. Load ControlNet Model ノードで Qwen-Image-InstantX-ControlNet-Union.safetensors が正しく読み込まれていることを確認します。
  2. 入力画像をアップロードします。
  3. ワークフロー内のサブグラフ(深度マップ生成部分)で、Lotus DepthモデルとVAEが正しく読み込まれていることを確認します。
  4. 必要に応じて strength を変更して、対応する制御強度を調整します。
  5. 「Run」ボタンをクリックするか、ショートカット Ctrl(Cmd) + Enter を使用してワークフローを実行します。

テンプレートでは、深度とCanny が用意されているようです。

comfyui_controlnet_auxなどのカスタムノードを使用して対応するソフトウェッジやポーズも利用可能です。

comfyUI qwen image instaX

DiffSynth モデルパッチ

DiffSynth ControlNets は、これは厳密にはControlNetではなく、モデル自体にパッチを適用して制御を実現する方式です。

Canny、深度(Depth)、インペイント(Inpaint)の3つの異なる制御モードをサポートしています。

モデルのダウンロードと配置

このワークフローでは、基本モデルに加えて、以下のモデルパッチの中から使用したいものをダウンロードし、ComfyUI/models/model_patches/ フォルダに配置します。

利用手順

ControlNet 関連のワークフローを初めて使用する場合は、コントロール イメージをモデルで使用および認識できるようにするには、サポートされているイメージ形式に前処理する必要があることを理解する必要があります。

このパッチモデルは3つの異なるモデルに分かれているため、適切な画像前処理が行われるように、入力時に正しい前処理タイプを選択する必要があります。

Cannyモデルの利用手順

  1. qwen_image_canny_diffsynth_controlnet.safetensors がロードされていることを確認します。
  2. 後続の処理のために入力画像をアップロードします。
  3. Cannyノードはネイティブの前処理ノードであり、設定したパラメータに従って入力画像を前処理し、生成を制御します。
  4. 必要に応じて、QwenImageDiffsynthControlnet ノードの strength を変更して、線画制御の強度を調整します。
  5. 「Run」ボタンをクリックするか、ショートカット Ctrl(Cmd) + Enter を使用してワークフローを実行します。

Depthモデルについて: qwen_image_depth_diffsynth_controlnet.safetensors を使用する場合、画像を深度マップに前処理し、ワークフローの「画像処理」部分を置き換える必要があります。この使用方法については、このドキュメントのInstantXの処理方法を参照してください。その他の部分はCannyモデルの使用方法と同様です。

Inpaintモデルの利用手順

Inpaintモデルでは、マスクエディタを使用してマスクを描画し、それを入力制御条件として使用する必要があります。

  1. ModelPatchLoader が qwen_image_inpaint_diffsynth_controlnet.safetensors モデルをロードしていることを確認します。
  2. 画像をアップロードし、マスクエディタを使用してマスクを描画します。対応するマスクがロードされるように、Load Image ノードの mask 出力を QwenImageDiffsynthControlnet の mask 入力に接続する必要があります。
  3. ショートカット Ctrl-B を使用して、ワークフロー内の元のCannyノードをバイパスモードに設定し、対応するCannyノードの処理を無効にします。
  4. CLIP Text Encoder に、マスクした領域を何に変更したいかを入力します。
  5. 必要に応じて、QwenImageDiffsynthControlnet ノードの strength を変更して、対応する制御強度を調整します。
  6. 「Run」ボタンをクリックするか、ショートカット Ctrl(Cmd) + Enter を使用してワークフローを実行します。

Union DiffSynth LoRA

Union DiffSynthは、LoRA(Low-Rank Adaptation)として機能するこのモデルで、最も多様な制御が可能です。

Canny, 深度, ポーズ, Lineart, ソフトエッジ, Normal, OpenPoseなど多くの機能がサポートされています。

モデルのダウンロードと配置

このワークフローでは、基本モデルに加えて、以下のLoRAモデルをダウンロードし、ComfyUI/models/loras/ フォルダに配置します。

利用手順

ダウンロードしたJSONファイルをComfyUIにドラッグ&ドロップしてワークフローを読み込みます。

  1. LoraLoaderModelOnly ノードで qwen_image_union_diffsynth_lora.safetensors が正しく読み込まれていることを確認します。
  2. 入力画像をアップロードします。
  3. CannyやOpenPoseなどの画像前処理を行います。ネイティブノードでサポートされていない処理には、comfyui_controlnet_aux のようなカスタムノードの利用が推奨されます。
  4. 「Run」ボタンをクリックするか、ショートカット Ctrl(Cmd) + Enter を使用してワークフローを実行します。

※その他の制御の場合は画像処理部分も交換する必要があります。

次のストリーム配信で、Union DiffSynth LoRA のデモを見ることができます。他にも、Instant Xのデモンストレーションを通じて、複雑なワークフローを劇的に簡潔にする「サブグラフ」機能も紹介されています。

Qwen-Image ControlNet in ComfyUI – DiffSynth / August 26th, 2025

応用テクニック&ヒント

複数の制御を組み合わせる

異なる種類の制御情報をブレンドして、より複雑な指示をモデルに与えることができます。例えば、深度マップ(奥行き情報)とCanny(線画情報)を組み合わせることで、形状と立体感の両方を同時に制御できます。

  1. 各プリプロセッサー(例:DepthAnythingCanny)で制御画像を生成します。
  2. Image Blendノードを追加します。
  3. 生成した2つの制御画像をImage Blendノードの入力に接続します。
  4. blend_mode(例:multiply, screen)やfactor(混合比率)を調整して、2つの画像をブレンドします。
  5. ブレンドした画像をControlNetへの入力として使用します。

ControlNetの強度と適用範囲の調整

ControlNetの効果は、強度(strength)だけでなく、生成プロセスのどの段階で適用するかによっても大きく変化します。

  • strength: ControlNetの効果の全体的な強さです。値を下げると効果が弱まります。
  • start_percent: ControlNetの適用を開始するステップの割合です(0=最初から)。値を少し上げる(例: 0.15)と、初期ノイズからの自由な発想を促し、より創造的な結果になることがあります。
  • end_percent: ControlNetの適用を終了するステップの割合です(1=最後まで)。値を少し下げる(例: 0.9)と、最終段階でモデルが細部を自由に調整できるようになり、より自然な仕上がりになることがあります。

より詳しい情報は公式ドキュメントページへ


Qwen Image ControlNet & LoRA, EasyCache and Context Window in ComfyUI

Day-1 Support of Qwen-Image InstantX ControlNet

コメント

Translate »
タイトルとURLをコピーしました