2025年8月20日(現地時間)- Qwen-Image-Edit がComfyUI でネイティブサポートされるようになったことが発表されました。
ここでは、モデルの特徴やワークフローについて紹介したいと思います。
Qwen-Image-Edit とは
Qwen-Image-Editは、Qwen-Imageの画像編集バージョンです。
20B(200億)パラメータを持つQwen-Imageモデルを基に追加学習を行い、Qwen-Image独自のテキストレンダリング能力を編集タスクに拡張することに成功し、高精度なテキスト編集が実現されています。
Qwen-Image-Editは入力画像をQwen2.5-VL(視覚的な意味制御用)とVAEエンコーダー(視覚的な外観制御用)の両方に入力することで、意味論と外観のデュアル編集能力を達成しています。
モデルの特長
- 高精度なテキスト編集:中国語と英語のバイリンガルテキスト編集に対応。元のテキストサイズ、フォント、スタイルを維持したまま、画像内のテキストを直接追加、削除、修正できます。
- 意味論と外観のデュアル編集:スタイル転送やオブジェクトの追加・削除・修正といった低レベルの視覚的外観編集だけでなく、IP(キャラクターなど)の作成やオブジェクトの回転といった高レベルの視覚的意味論編集もサポートします。
- 強力なベンチマーク性能:複数の公開ベンチマーク評価において、編集タスクで最先端(SOTA)の結果を達成しており、画像生成のための強力な基盤モデルとなっています。
ComfyUIネイティブワークフロー例
1. ワークフローファイル
ComfyUIを更新した後、テンプレートからワークフローファイルを見つけることができます。
2. モデルのダウンロード
全てのモデルはComfy-Org/Qwen-Image-Edit_ComfyUIからダウンロードできます。
- Diffusion model: qwen_image_edit_fp8_e4m3fn.safetensors (GGUF版はこちら)
- LoRA: Qwen-Image-Lightning-4steps-V1.0.safetensors
- Text encoder: qwen_2.5_vl_7b_fp8_scaled.safetensors
- VAE: qwen_image_vae.safetensors
モデルの保存場所
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_edit_fp8_e4m3fn.safetensors
│ ├── 📂 loras/
│ │ └── Qwen-Image-Lightning-4steps-V1.0.safetensors
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
3. ワークフロー実行手順

- モデルの読み込み
Load Diffusion Modelノードでqwen_image_edit_fp8_e4m3fn.safetensorsを読み込みます。Load CLIPノードでqwen_2.5_vl_7b_fp8_scaled.safetensorsを読み込みます。Load VAEノードでqwen_image_vae.safetensorsを読み込みます。
- 画像の読み込み
Load Imageノードで編集したい画像をアップロードします。
- プロンプトの設定
CLIP Text Encoderノードにプロンプトを入力します。
- (オプション)
Scale Image to Total Pixelsノードは、入力画像を合計100万ピクセルにスケーリングします。これは、2048×2048のような大きすぎる画像による品質低下を防ぐためです。入力サイズに問題がなければ、このノードはCtrl+Bでバイパスできます。 - (オプション)4ステップのLightning LoRAで生成を高速化したい場合は、
LoraLoaderModelOnlyノードを選択しCtrl+Bで有効にします。 Ksamplerノードのstepsとcfgについては、ノードの下に最適なパラメータ設定のメモが用意されています。Queueボタンをクリック、またはショートカットCtrl(Cmd) + Enterでワークフローを実行します。
出力例





























コメント