2025年8月4日(現地時間)- AlibabaグループのQwenは新しい画像生成AI『Qwen-Image』のリリースを発表しました。
Qwen-Imageとは
『Qwen-Image』は、200億パラメータを持つMMDiT画像基盤モデルです。このモデルは、画像内に複雑なテキストを忠実に描画(レンダリング)する能力と、精密な画像編集機能において、大きな進歩を遂げています。
主な特徴は以下の通りです。
- 優れたテキストレンダリング能力 :複数行のレイアウト、段落レベルの文章、細かな文字表現など、複雑なテキストの描画に非常に優れています。英語のようなアルファベット言語はもちろん、日本語や中国語のような表語文字も高い忠実度でサポートします。
- 一貫性のある画像編集 :強化されたマルチタスク学習により、編集操作(オブジェクトの追加・削除、スタイルの変更など)の際に、元の画像の意図や視覚的なリアリズムを損なうことなく、一貫性を保った編集が可能です。
- 各種ベンチマークで実証された高い性能 :複数の公開ベンチマークにおいて、Qwen-Imageは多様な画像生成・編集タスクで既存のモデルを一貫して上回る性能を示しています。特に、中国語のテキスト描画に関するベンチマークでは、他の最先端モデルを大幅に凌駕する結果を残しました。

“Close-up of a convenience store shelf in Japan, filled with a variety of colorful packaged snacks, drinks, and groceries. Realistic lighting, high detail, vibrant colors. Modern Japanese packaging design with a mix of English and Japanese labels. Each item has price tags, barcodes, nutritional info, and shelf tags in Japanese. Products include: “Mochi Bites もちスナック” – pastel-colored mochi snack in a clear bag, “Yama Chips やまチップス” – seaweed-flavored potato chips with green packaging……

Cozy pixel art game interface like Stardew Valley. CRT monitor with glow and scanlines. Title: ‘Comfier OS’ in chunky font. Menu: Start, Load, Options, Quit. Floating icons: floppy disk, cat, moon, tea mug. Weather widget: sun and clouds. Pixel window shows calendar and mail icon. Bottom bar: pixel hearts, tiny clock, soft sparkles. Warm lighting, retro 16-bit style, pastel colors, calming cabin or meadow background
すぐに試すには、Qwenチャットにアクセスして「画像生成」を選択してください。
モデルはHUGGING FACE、 MODELSCOPEで公開されています。
パフォーマンスについて
Qwen-Imageの性能は、一般的な画像生成に関するGenEval、DPG、OneIG-Bench、および画像編集に関するGEdit、ImgEdit、GSOなど、複数の公開ベンチマークで包括的に評価されています。
Qwen-Imageはこれらすべてのベンチマークで最先端の性能を達成し、画像生成と編集の両方における高い能力が実証されたとのことです。さらに、LongText-Bench、ChineseWord、TextCraftといったベンチマークの結果は、特に中国語のテキスト生成において、既存の最先端モデルを大幅に上回る優れたテキスト描画能力を示しています。

ComfyUIでの利用
Qwen-Imageは、人気のワークフロー型UIであるComfyUIでネイティブサポートが開始されており、ローカル環境で活用できます。
Hugging Face上のComfy-Org/Qwen-Image_ComfyUI
リポジトリから、以下のモデルが利用可能です。
- Qwen-Image_bf16 (40.9 GB) ‐RTX4090D 24GBでVRAM使用率96%、生成時間: 初回は295秒、2回目は131秒
- Qwen-Image_fp8 (20.4 GB) ‐RTX4090D 24GBでVRAM使用率86%、生成時間: 初回94秒、2回目71秒
また、ComfyUIで利用するには、以下の主要なモデルファイルが必要です。
- Diffusion Model: qwen_image_fp8_e4m3fn.safetensors
- Text Encoder: qwen_2.5_vl_7b_fp8_scaled.safetensors
- VAE : qwen_image_vae.safetensors

また、より少ないVRAMでの実行を可能にするため、コミュニティによってGGUF形式に変換された量子化モデルも提供されています。
この形式を利用するには、ComfyUI-GGUF カスタムノードの導入が必要です。以下のモデルを指定のフォルダに配置してください。
モデル種別 | モデル名 | 配置場所 | ダウンロード形式 |
---|---|---|---|
メインモデル | Qwen-Image | ComfyUI/models/unet | GGUF |
テキストエンコーダー | Qwen2.5-VL-7B | ComfyUI/models/text_encoders | Safetensors / GGUF |
VAE | Qwen-Image VAE | ComfyUI/models/vae | Safetensors |
Qwenは、Qwen-Imageにより画像生成技術の発展をさらに促進し、プロフェッショナルなビジュアルコンテンツ制作の技術的な障壁を引き下げることを目指しています。開発チームは、コミュニティからの積極的な参加とフィードバックを通じて、オープンで持続可能な生成AIエコシステムを共に構築していくことを期待しているとのことです。
Qwen-Image: Crafting with Native Text Rendering
Qwen-Image in ComfyUI: New Era of Text Generation in Images!
コメント