2026年4月21日（現地時間）- OpenAIより、画像生成モデルの最新版となる「ChatGPT Images 2.0」が発表されました。

約1年前の初期リリースからアップデートが行われ、複雑な視覚的タスクを処理し、実務でも活用しやすい精度の高いビジュアルを生成できるようになっています。

This is ChatGPT Images 2.0

主な特徴と進化のポイント
「推論（Thinking）モデル」との統合による進化
1. 最新情報の反映（2025年12月までの知識）
2. 複数画像の同時生成と制作のサポート
開発者・クリエイター向けの環境
現在の制限事項
提供状況と価格

主な特徴と進化のポイント

高い精度と細部のコントロール

Images 2.0では、プロンプト（指示）への忠実度が大きく向上しています。指定されたディテールをより正確に反映しやすくなりました。

特に、これまでのモデルが苦手としていた「小さな文字」「アイコン」「UI要素」「複雑な構図」「細かなスタイルの指定」などの要素をきれいにレンダリングできるようになっています。API経由では最大2K解像度の出力に対応しており、より実用的な画像を得ることができます。

プロンプト例（原文）: “a screenshot of chatgpt, in a browser, in macosx. the user types “draw me a dog” chatgpt draws an ascii dog the front window is chatgpt, but the desktop is quite messy with lots of random windows open (e.g. a terminal). they’re all in the background”

日本語訳: macOSのブラウザで開かれたChatGPTのスクリーンショット。ユーザーが「犬を描いて」と入力し、ChatGPTがアスキーアートで犬を描いている様子。背景にはターミナルなど複数のウィンドウが散らかっている。

非ラテン言語を含む多言語対応の強化

これまでのモデルは英語などのラテン文字には強かったものの、それ以外の言語では複雑なテキストを描画する精度に課題がありました。今回のアップデートで、日本語、韓国語、中国語、ヒンディー語、ベンガル語などでのレンダリング能力が向上しています。

単に文字を翻訳するだけでなく、ポスターや図解、マンガのコマなどに、テキストをデザインの一部として自然に組み込んだ画像を生成できるようになりました。さまざまな言語圏での制作において、より使いやすいツールになっています。

プロンプト例（原文）: “Make a sample page of a colorized Japanese shonen adventure manga. The page should vividly depict our main character found a magical quill. The name of the quill is called the Quill of GPT Image. Make it dramatic. The magical quill has strong power sealed inside it. Additional instructions: Aspect ratio: Portrait 1440×2560. The pen should have an OpenAI logo on it. The language throughout the manga should be Japanese. Think carefully first to make this a good story with good split of manga panels. The page should appear as a photo of a physical page, not a digital page.”

日本語訳: 日本の少年冒険マンガのカラーページ。「GPT Imageの羽ペン」と呼ばれる魔法の羽ペンを主人公が見つける劇的なシーン。ペンにはOpenAIのロゴがあり、テキストはすべて日本語で記述する。物理的なページの写真のように見せること。

スタイルの再現性とリアリズム

多様なビジュアルスタイルを表現する能力も向上しています。写真らしい現実味を出すための微細な要素（レンズフレアやフィルムの質感など）から、シネマティックな表現、ピクセルアート、マンガなど、さまざまな手法に対応しています。

質感や光の当たり方、構図などの一貫性が保たれており、指定したスタイルをより忠実に再現できるようになりました。ゲームのプロトタイプ作成や絵コンテ、マーケティング素材の作成などに役立ちます。

プロンプト例（原文）: “Create a photographic image with beautiful depth of field, as if it were shot on a medium-format analogue camera using colour film, 85 mm f/4. It should be a distinctive portrait of twins—realistic, authentic, imperfect, and natural—set in the middle of a deserted, misty road in the heart of America. Aspect ratio 3:4.”

日本語訳: 中判アナログカメラとカラーフィルム（85mm f/4）で撮影したような、美しい被写界深度のある写真。アメリカ中心部の霧深い人気のない道路に立つ双子のポートレート。リアルで自然、不完全な雰囲気を表現する（アスペクト比 3:4）。

柔軟なアスペクト比（縦横比）のサポート

ワイドバナーやプレゼンテーションに適した横長（3:1）から、モバイル画面に合わせた縦長（1:3）まで、幅広いアスペクト比での生成に対応しています。プロンプトで希望の比率を指定したり、プリセットから選んで別サイズで作り直したりすることが可能です。

プロンプト例（原文）: “Use the input photos only for each person’s identity. Redraw all 9 of us in one ultrawide image as very simple surreal Japanese sticker-style caricatures: long thin necks, small deadpan faces, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shapes, lots of white space, plain white background, slightly awkward and funny. Show all 9 of us naturally gathered around a giant sheet of paper on the floor, leaning over it from different sides in diverse drawing poses, all actively working together on the same single large drawing-in-progress on the paper, not separate little drawings, with exactly one drawn person per input person. the drawing on the paper should read as one coherent poster-like scene.”

日本語訳: 超横長のウルトラワイド画像。9人の人物を、シンプルでシュールな日本のステッカー風の似顔絵（細長い首、無表情、シンプルな線画、ベタ塗り）で描く。全員で床にある1枚の大きな紙を囲み、協力して絵を描いているシーンをポスターのように描画する。

「推論（Thinking）モデル」との統合による進化

複数画像の同時生成と制作のサポート

ChatGPT内で「推論モデル（Thinking / Proモデル）」を選ぶと、Images 2.0は背後でより深くタスクを理解し、作業を進めます。必要に応じてWeb検索を行ったり、アップロードされた資料を図解にまとめたり、画像を生成する前に構図を論理的に組み立てたりてくれます。

さらに、一度に最大 8 枚の異なる画像を生成できるようになり、これらの処理をまとめて 1 回の指示で実行できるようになりました。

マンガの連続した複数ページ
部屋ごとの異なるリデザイン案のセット
同一コンセプトのバリエーション出し
SNS向けの異なるアスペクト比・多言語対応グラフィックの一括作成

キャラクターやオブジェクトの連続性を保ちながら、順序立てて構築された画像セットを一度に出力できるため、制作の手間を減らすことができます。

プロンプト例（原文）: “Make an advertisement promoting my new matcha shop called ‘kizuki’ opening in brooklyn heights. have a nice sunlight image of a strawberry matcha (iced) and a streetwear aesthetic w japanese minimalism. make sure to include multiple aspect ratio outputs so i can use it on twitter, IG stories, IG feed, and linkedin.”

日本語訳: ブルックリンハイツにオープンする新しい抹茶ショップ「kizuki」の広告を作成。ストロベリー抹茶（アイス）のきれいな太陽光の画像と、日本のミニマリズムを取り入れたストリートウェアの美学を含めること。Twitter、IGストーリーズ、IGフィード、LinkedInで使用できるよう、複数のアスペクト比で出力して。

開発者・クリエイター向けの環境

Codexでの画像生成

プログラミング支援ツールのCodex内でも画像生成が使えるようになりました。

アプリのUI案やプロトタイプをいくつか作成し、良いアイデアをそのままコードやWebサイトに組み込むなど、デザインから開発までをひとつの場所で進められます。Codexでの画像作成はChatGPTのサブスクリプションで利用可能です（別途APIキーは不要です）。

APIでの提供（gpt-image-2）

開発者や企業向けに、API経由でgpt-image-2モデルが提供されています。テキストの描画能力の向上や多言語対応、さまざまなアスペクト比への対応により、地域向けの広告、デザインツール、クリエイティブプラットフォームへの組み込みがスムーズになります。

Adobe Fireflyをはじめ、Canva、Figma、OpenArtなどのプラットフォームで、すでに機能の統合や検証が進められています。

ComfyUIでのサポート（Partner Nodes）

ノードベースの画像生成ツール「ComfyUI」でも、Partner Nodesを通じてgpt-image-2モデルが利用できるようになりました。

ComfyUIのワークフローに組み込むことで、このモデルならではの特徴を活かした制作が可能になります。

推論による正確な生成: 文字やUI要素、アイコンなどをきれいにレンダリングできるため、テキストを多く含むメイン画像の生成に適しています。
一貫性を保った画像編集: 変更したい部分以外（顔のつくりや背景の細部など）を崩すことなく、最大2K解像度で自然な部分編集が可能です。モノクロ写真のカラー化や、昼から夜への時間帯の変更などがスムーズに行えます。
連続性のある複数画像生成: キャラクターや小物のデザインを保ったまま、1つのノードで最大8枚の画像を一度に出力できます。絵コンテやキャラクターの設定図作りに役立ちます。

GPT Image 2.0でベースとなる画像を生成し、その後の高解像度化（アップスケーリング）や動画への変換をローカルモデルに引き継ぐといった、ハイブリッドな作業手順をひとつの画面上で構築できるようになります。

利用の際は、ComfyUIを最新版（v0.19.4以降）にアップデートし、ノードライブラリから「OpenAI GPT Image 1.5」を検索してgpt-image-2モデルを選択してください（※Comfy Cloud版も近日対応予定です）。

現在の制限事項

さまざまな進化が見られるImages 2.0ですが、いくつかの制限も確認されています。次のようなタスクでは、まだ結果が不安定になることがあります。

完全で矛盾のない物理世界のモデル化（例：正確な折り紙の手順やルービックキューブの構造など）
隠れた面、角度のついた面、裏返った面における詳細の正確な描写
細かい砂粒のような、非常に高密度で反復的な視覚的ディテール
厳密な矢印やパーツのラベル付けに依存する複雑な図解（正確性の確認が必要です）

また、APIでの2K解像度以上の出力は現在ベータ版であり、状況によっては結果が安定しない場合があります。OpenAIはこれらを今後の重要な改善点として位置づけています。

提供状況と価格

ChatGPT Images 2.0は、本日よりすべてのChatGPTおよびCodexユーザーに向けて提供が開始されています。「推論」機能を活用した高度な出力は、ChatGPT Plus、Pro、Businessユーザーが利用可能です。

APIとしてのgpt-image-2（最先端の画像生成モデル）も利用可能となっており、料金は以下のようになっています。

タイプ	入力用	キャッシュ入力用	出力用
画像	$8.00	$2.00	$30.00
テキスト	$5.00	$1.25	$10.00

※ 入力用はプロンプトなどモデルに情報を送るコスト、キャッシュ入力用は過去の入力データがシステムに保持され再利用される場合の割引コスト、出力用はモデルが実際に画像を生成する際のコストを指します。

詳細は公式の料金体系ページもご確認ください。また、モデルの安全性や制限事項に関する詳細なアプローチについては、公式のシステムカードにて公開されています。

OpenAI、画像生成モデル「ChatGPT Images 2.0」を発表！推論モデルとの統合や2K出力、高精細な文字描画に対応

主な特徴と進化のポイント

高い精度と細部のコントロール

非ラテン言語を含む多言語対応の強化

スタイルの再現性とリアリズム

柔軟なアスペクト比（縦横比）のサポート

「推論（Thinking）モデル」との統合による進化

最新情報の反映（2025年12月までの知識）

複数画像の同時生成と制作のサポート

開発者・クリエイター向けの環境

Codexでの画像生成

APIでの提供（gpt-image-2）

ComfyUIでのサポート（Partner Nodes）

現在の制限事項

提供状況と価格

コメント

Appleの年次開発者会議「WWDC26」

リアルタイム3D技術をテーマにした産業向けカンファレンス「Unity 産業DXカンファレンス 2026」

Unreal Fest Chicago 2026

SIGGRAPH 2026

国内最大級のゲーム開発者向け技術・知識共有カンファレンス「CEDEC2026」

Appleの年次開発者会議「WWDC26」

リアルタイム3D技術をテーマにした産業向けカンファレンス「Unity 産業DXカンファレンス 2026」

Unreal Fest Chicago 2026

SIGGRAPH 2026

国内最大級のゲーム開発者向け技術・知識共有カンファレンス「CEDEC2026」