2026年2月10日(現地時間)- Alibaba Cloud の Qwen開発チームは、次世代の基盤画像生成モデルとなる「Qwen-Image-2.0」を発表しました。
Qwen-Image-2.0とは
Qwen-Image-2.0は、Qwenチームがこれまで並行して進めてきた「生成(Generation)」と「編集(Editing)」という2つの開発トラックを統合した最新モデルです。
このモデルは、従来別々に開発されることが多かった「画像生成」と「画像編集」の機能を単一のモデルで実現していることに加えて、特にデザイン業界や3DCG制作の現場で求められる「文字の正確なレンダリング」や「物理的に忠実な質感表現」において、大きく性能が向上しています。

- 生成トラック:8月に正確なテキストレンダリングを重視した「Qwen-Image」を、12月には詳細な写実性を強化した「Qwen-Image-2512」を発表し、画像の「精度」と「リアルさ」を追求。
- 編集トラック:8月の単一画像編集に始まり、9月には複数画像編集、12月には一貫性(Consistency)の向上と、機能面での進化を継続。
そして今回リリースされたQwen-Image-2.0は、これら全ての成果を統合し、テキストから画像への生成(T2I)だけでなく、画像の編集タスクにおいても同一モデルで高度な結果が出力可能となっています。
モデルのパフォーマンス
AI Arenaでのブラインドテスト結果によると、Qwen-Image-2.0はテキスト生成(Text-to-Image)および画像編集(Image-to-Image)の両方のベンチマークにおいて、他モデルと比較して優れたパフォーマンスを示していると報告されています。
主な特徴
Qwen-Image-2.0の主な技術的特徴は以下の4点です。
- プロフェッショナルな文字レンダリング:1,000トークン規模の指示をサポートし、PPT、ポスター、漫画などの情報量の多い画像を直接生成可能。
- 意味的整合性と写実性の強化:ネイティブ2K解像度に対応し、人物、自然、建築物などの微細なディテールを忠実に再現。
- 統合されたテキスト理解と生成:生成と編集を単一モードで実行可能。
- 軽量なモデルアーキテクチャ:モデルサイズの縮小と推論速度の高速化を実現。
以下は、Qwen-Image-2.0 の主な強化ポイントを示す生成例となります。
複雑なレイアウトと長文テキストの正確な描画
従来の画像生成AIが苦手としていた「長文テキスト」や「複雑なレイアウト」の再現性が飛躍的に向上しています。その能力を示す最も顕著な例が、以下の開発ロードマップのスライドです。

元のプロンプトを見る
一张深蓝色渐变背景的幻灯片。标题是“Qwen-Image发展历程”。下方一条发光时间轴,上面有多个节点。第一个节点是“2025年5月6日 Qwen-Image 项目启动”。之后分为两条支线:上方支线旁边写着”生图支线”:支线上的节点包括“2025年8月4日 Qwen-Image”(上方有一个图片。一个小女孩在黑板上用粉笔写着”文字渲染”)、“2025年12月31日 Qwen-Image-2512” (上方有一个细腻的眼睛特写图片,上方透明文本框写着”细腻刻画”)。下方支线旁边写着”编辑支线”:支线上的节点包括“2025年8月18日 Qwen-Image-Edit”(下方是一个组图,上面是戴帽子的小狗,下面是同一只小狗去除帽子的图,中间配有文字”单图编辑”)、“2025年9月22日 Qwen-Image-Edit-2509”(下方是一个组图,上方左侧是女生、上方右侧是黑色小汽车,中间配有文字“多图编辑”,下方是女生依靠在车门旁)、“2025年12月19日 Qwen-Image-Layered”(下方是一个堆叠的透明多图层,中间配有文字”图层拆分”)、“2025年12月23日 Qwen-Image-Edit-2511”(下方是一个组图,上方左侧是男生、上方右侧是女生,中间配有文字”一致性提升”,下方是他们的合影。然后两个支线合二为一,变成一个新的节点“2026年2月10日 Qwen-Image-2.0”(大字号,周围光晕显著)。
日本語訳: 深い紺色のグラデーション背景のスライド。タイトルは「Qwen-Image発展の歴程」。下方には発光するタイムラインがあり、その上に複数のノードがある。最初のノードは「2025年5月6日 Qwen-Imageプロジェクト開始」。その後、2本の支線に分かれる。上側の支線の横には「生図支線」と書かれている。支線上のノードには「2025年8月4日 Qwen-Image」(上には小さな女の子が黒板にチョークで「文字渲染」と書いている画像)、「2025年12月31日 Qwen-Image-2512」(上には精細な目のクローズアップ画像があり、透明なテキストボックスには「細腻刻画」と書かれている)が含まれる。下側の支線の横には「編集支線」と書かれている。支線上のノードには「2025年8月18日 Qwen-Image-Edit」(下には組み合わせ画像があり、上は帽子をかぶった小犬、下は同じ小犬から帽子を取り除いた画像で、中央には「単図編集」と書かれている)、「2025年9月22日 Qwen-Image-Edit-2509」(下には組み合わせ画像があり、上左は女性、上右は黒い小型車、中央には「多図編集」と書かれ、下には女性が車のドアにもたれかかっている画像)、「2025年12月19日 Qwen-Image-Layered」(下には透明な複数レイヤーが積み重なった画像があり、中央には「図層拆分」と書かれている)、「2025年12月23日 Qwen-Image-Edit-2511」(下には組み合わせ画像があり、上左は男性、上右は女性、中央には「一致性提升」と書かれ、下には2人の合影がある)が含まれる。その後、2本の支線は1本に合流し、新しいノード「2026年2月10日 Qwen-Image-2.0」となる(大きな文字で、周囲に明るい光輪がある)。
プロンプトには「濃い青のグラデーション背景」「発光するタイムライン」といったビジュアル指示に加え、各ノードに配置する詳細なテキスト内容まで含まれていました。さらに、「帽子をかぶった子犬」と「帽子を脱いだ子犬」を並べて配置するといった“ピクチャー・イン・ピクチャー”形式の指示にも正確に応え、子犬の見た目の一貫性まで保っています。
これは、Qwen‑Image‑2.0 が持つ 「正確さ(Precision/准)」 と、1,000 トークン規模の指示を処理できる 「複雑さ(Complexity/多)」 への対応力を象徴する例と言えます。この能力により、プロフェッショナルなスライド制作の作業を効率化できます。
美的構成と書道の再現
文字情報の正確さに加え、美的(Aesthetic)な構成能力も強化されています。
中国の古典的な水墨画や書道の生成例では、宋の徽宗による「痩金体」や王羲之の「小楷」といった特定の書体を指定し、詩の全文をほぼ正確かつ自然な筆致で画像内にレンダリングできることが確認されています。

元のプロンプトを見る
一幅宋代宫廷风格工笔重彩画:画面中央为一位身着淡青色齐胸襦裙、披浅绯色薄纱披帛的偏瘦年轻宫女,立于雕花汉白玉栏杆旁的杏花树下翩然起舞,衣袖舒展如云,裙裾微扬,足尖轻点青砖地面,姿态柔婉而端庄;背景为春日皇家苑囿,枝头盛放粉白相间的重瓣杏花,花瓣随风轻落,树影婆娑;远处可见一角飞檐翘角的宫殿轮廓与半掩的朱红宫墙;左上角一泓清池初解冻,浮着细碎冰晶,画面右上方悬垂一道素雅湘竹帘,帘旌正被微风悄然吹动。整幅画采用绢本设色,色调清丽雅致。画面自上而下、自右向左以瘦金体工整题写全文:“帘旌微动,峭寒天气,\n龙池冰泮。\n杏花笑吐香犹浅,\n又还是、春将半。\n清歌妙舞从头按。\n等芳时开宴。\n记去年、对著东风,\n曾许不负莺花愿。” 字体纤劲挺拔,笔锋锐利如削,墨色乌亮。
日本語訳: 一幅の宋代宮廷風の工筆重彩画。画面中央には、淡い青色の齊胸襦裙をまとい、薄い緋色の薄紗の披帛を羽織った、やや細身の若い宮女が、彫刻の施された漢白玉の欄干のそば、杏の木の下で軽やかに舞っている。衣の袖は雲のように広がり、裙の裾はわずかに翻り、つま先は青い煉瓦の地面を軽く踏み、姿態は柔らかく優雅でありながら端正である。背景は春の皇家の庭園で、枝には白と淡紅が入り混じった八重の杏の花が満開に咲き、花びらが風に乗って静かに舞い落ち、木陰が揺れている。遠くには、反り上がった軒先をもつ宮殿の一角と、半ば隠れた朱塗りの宮城の壁が見える。左上には、氷が解け始めた澄んだ池があり、細かな氷の結晶が浮かんでいる。画面右上には、素朴で上品な湘竹の簾が垂れ下がり、その簾が微風にそっと揺れている。全体は絹本着色で描かれ、色調は清らかで優雅。画面の上から下へ、右から左へと、瘦金体で整然と全文が題されている。「帘旌微动,峭寒天气,龙池冰泮。杏花笑吐香犹浅,又还是、春将半。清歌妙舞从头按。等芳时开宴。记去年、对著东风,曾许不负莺花愿。」字体は細く引き締まり、鋭い筆致で、墨色はつややかに黒い。
物理的質感と写実性
CG制作において重要なテクスチャ表現や物理的な光の相互作用も大幅に改善されています。
ガラス製のホワイトボードに文字が書かれているシーンの生成では、ガラスへの映り込み、書き文字の筆圧による濃淡、照明による反射などを物理的に正しくシミュレートしています。また、映画ポスターの生成例では、俳優の衣装(シルク、革、金属)の質感や、雨に濡れた城壁の表現など、実写と見紛うレベルのディテールを実現しています。

元のプロンプトを見る
A wide-angle smartphone photograph of a modern glass whiteboard mounted on a wall inside a bright, airy office room with floor-to-ceiling windows overlooking the Great Wall of China winding across misty mountain ridges at golden hour — warm sunlight casts soft reflections and long shadows across the scene.\nCentered in the frame, a woman in her late 20s wearing a relaxed-fit white t-shirt prominently featuring a sleek “Qwen-Image” logo in gradient blue typography is writing on the board with a fine-tip magnetic stylus.\nHer handwriting is natural, slightly imperfect, and expressive — with visible pressure variation, subtle smudges, and organic line weight — conveying authentic human authorship.\nIn the lower-left corner of the glass surface, the photographer’s faint but unmistakable reflection appears: blurred outline of a person holding a phone at arm’s length, capturing the moment.\n\nOn the left side of the whiteboard, clean, legible handwritten text appears in dark gray marker with exceptional stroke fidelity:\n’Qwen-Image-2.0 Core Innovations:\n• Complex Typography Engine: 1K-token instruction support for professional PPTs, posters & infographics — pixel-perfect multi-script layout, sophisticated text-image composition, and complete rendering of large-volume textual content\n• Extreme Photorealism: Native 2K resolution (2048×2048) with microscopic detail on skin pores, fabric weave, architectural textures & natural foliage\n• Unified Omni Model: Generation + editing in one model — full-stack multimodal understanding and generation capabilities seamlessly integrated\n• 7B Efficiency: 2K image generation in seconds — optimal balance between visual fidelity and inference speed’\n\nOn the right side of the whiteboard, vertically aligned technical notes in crisp marker:\n’Why It Matters:\n→ One model delivers photorealistic imagery AND pixel-perfect text rendering simultaneously\n→ One model powers both text-to-image generation AND precise image editing without pipeline switching\n→ One model unifies deep multimodal understanding AND high-fidelity generation in a single 7B architecture’\n\nIn the bottom-right corner, a hand-drawn schematic in precise strokes:\n’[8B Qwen3-VL Encoder] → [7B Diffusion Decoder] → pixels (2048×2048)’\n— arrows flow with perspective depth, boxes feature soft shading, resolution specs annotated in fine print.\n\nThe glass surface exhibits realistic optical properties.\nBackground includes minimalist wooden shelving with design magazines open to full-bleed infographics — one prominently displays a crisp cover reading “Qwen 3.5” in bold modern typography — and a potted fiddle-leaf fig with individually rendered leaf veins partially visible out-of-focus.
日本語訳: 明るく開放的なオフィスルームの壁に取り付けられたモダンなガラス製ホワイトボードを、広角のスマートフォンで撮影した写真。床から天井までの大きな窓の外には、金色の時間帯の光の中、霧がかった山脈の稜線に沿ってうねる万里の長城が見え、暖かな日差しがシーン全体に柔らかな反射と長い影を落としている。フレーム中央には20代後半の女性が立っており、グラデーションの青いタイポグラフィでデザインされた「Qwen-Image」ロゴが大きくプリントされたゆったりした白いTシャツを着て、細い先端のマグネット式スタイラスでボードに文字を書いている。彼女の筆跡は自然で、わずかに不完全さがあり、表情豊かで、筆圧の変化や微細なかすれ、自然な線の太さが見られ、人間が書いた本物らしさを伝えている。ガラス面の左下には、撮影者のかすかながらも明確に分かる反射が映っており、腕を伸ばしてスマートフォンを構える人物のぼんやりした輪郭が確認できる。ホワイトボードの左側には、濃いグレーのマーカーで書かれた非常に読みやすく整った手書きの文字があり、筆致の再現度は極めて高い:「Qwen-Image-2.0 Core Innovations: • Complex Typography Engine: 1K-token instruction support for professional PPTs, posters & infographics — pixel-perfect multi-script layout, sophisticated text-image composition, and complete rendering of large-volume textual content • Extreme Photorealism: Native 2K resolution (2048×2048) with microscopic detail on skin pores, fabric weave, architectural textures & natural foliage • Unified Omni Model: Generation + editing in one model — full-stack multimodal understanding and generation capabilities seamlessly integrated • 7B Efficiency: 2K image generation in seconds — optimal balance between visual fidelity and inference speed」。ホワイトボードの右側には、縦方向に整列した鮮明なマーカーによる技術メモがある:「Why It Matters: → One model delivers photorealistic imagery AND pixel-perfect text rendering simultaneously → One model powers both text-to-image generation AND precise image editing without pipeline switching → One model unifies deep multimodal understanding AND high-fidelity generation in a single 7B architecture」。右下には精密な筆致で描かれた手書きの模式図がある:「[8B Qwen3-VL Encoder] → [7B Diffusion Decoder] → pixels (2048×2048)」。矢印は遠近感のある流れで描かれ、ボックスには柔らかな陰影がつけられ、解像度の注記が細字で添えられている。ガラス面には現実的な光学的特性が表れている。背景にはミニマルな木製シェルフがあり、デザイン雑誌が見開きでインフォグラフィックを表示して置かれており、その中の一冊はモダンな太字タイポグラフィで「Qwen 3.5」と書かれた鮮明な表紙が目立っている。また、フィドルリーフ・フィグの鉢植えがあり、葉脈が一本一本描写された葉が、わずかにぼかされた状態で部分的に見えている。
自然風景の描写においても、「23種類以上の異なる緑色」を描き分ける能力を持っており、夏の森林における葉の質感(ワックス質、起毛、革質など)や、木漏れ日(チンダル現象)の表現など、生態学的に説得力のある画像を生成可能です。

統合された編集機能
Qwen-Image-2.0は「Omniモデル」として設計されているため、生成能力の向上がそのまま編集能力の向上に直結しています。
例えば、既存の写真に対して自然に詩を書き加える「テキスト追加」や、人物の服装や背景を変更する編集、さらには実写画像をイラスト風のフラットなスタイルへ書き換えるといった編集作業を、高い一貫性を保ったまま実行できます。

元のプロンプトを見る
将图1与图2中的同一位东亚男性合成一张自然合照:两人并肩站立于同一场景中,左侧人物(图1)身着米白色长袖衬衫、黑色休闲裤,佩戴黑框眼镜与米色斜挎包(包身印有黑色 “CHENG” 字样),右手轻握一折叠扇,面带温和微笑望向右前方;右侧人物(图2)身着红黑相间学士服(红色前襟饰有金色盘扣与“北航”二字刺绣,黑色披肩边缘缀深蓝花卉纹样,内搭浅灰蓝衬衫),佩戴同款黑框眼镜,双手持深灰色毕业证书,目光正视镜头,神情沉稳。背景统一为图2中的爬满常春藤的青灰色石墙,阳光从左上方45度角洒落,形成柔和丁达尔光束,照亮两人发梢与肩部;地面为浅灰花岗岩铺装,光影过渡自然。两人站姿协调,间距约30厘米,身体微向对方倾斜以体现亲密感,整体构图居中对称, 采用等效全画幅50mm镜头拍摄(f/4.0,1/160s,ISO 200),景深适中,面部清晰锐利,背景藤叶呈柔焦虚化,色调温暖真实,无拼接痕迹。
日本語訳: 図1と図2に写る同一の東アジア系男性を合成し、自然なツーショット写真として一枚にまとめる。二人は同じ場面に並んで立ち、左側の人物(図1)はオフホワイトの長袖シャツと黒のカジュアルパンツを着用し、黒縁眼鏡とベージュの斜め掛けバッグ(バッグには黒字で“CHENG”と印字)があり、右手に折りたたみ扇を軽く持ち、穏やかな微笑みで右前方を見つめている。右側の人物(図2)は赤と黒の学士服を着用し、赤い前身頃には金色の盤扣と「北航」の刺繍、黒いショールの縁には濃紺の花文様があり、内側に淡い灰青色のシャツを合わせ、同じ黒縁眼鏡をかけ、両手で濃灰色の卒業証書を持ち、正面を見据えて落ち着いた表情をしている。背景は図2の蔦に覆われた青灰色の石壁に統一し、左上45度から差し込む陽光が柔らかなチンダル光を作り、二人の髪先と肩を優しく照らす。地面は淡灰色の花崗岩舗装で、光と影の移り変わりは自然。二人の立ち位置は約30センチの間隔で、互いにわずかに体を傾けて親しみを表し、構図は中央で対称的に整えられている。撮影はフルサイズ換算50mmレンズ(f/4.0、1/160s、ISO 200)を想定し、適度な被写界深度で顔は鮮明に、背景の蔦は柔らかくぼかされ、色調は温かく自然で、合成の痕跡はないように仕上げる。
利用について
Qwen-Image-2.0は現在、Qwen Chat で試すことができます。
また追加の情報があれば更新したいと思います。



























コメント