2026年4月21日(現地時間)- OpenAIより、画像生成モデルの最新版となる「ChatGPT Images 2.0」が発表されました。
約1年前の初期リリースからアップデートが行われ、複雑な視覚的タスクを処理し、実務でも活用しやすい精度の高いビジュアルを生成できるようになっています。
主な特徴と進化のポイント
高い精度と細部のコントロール
Images 2.0では、プロンプト(指示)への忠実度が大きく向上しています。指定されたディテールをより正確に反映しやすくなりました。
特に、これまでのモデルが苦手としていた「小さな文字」「アイコン」「UI要素」「複雑な構図」「細かなスタイルの指定」などの要素をきれいにレンダリングできるようになっています。API経由では最大2K解像度の出力に対応しており、より実用的な画像を得ることができます。
非ラテン言語を含む多言語対応の強化
これまでのモデルは英語などのラテン文字には強かったものの、それ以外の言語では複雑なテキストを描画する精度に課題がありました。今回のアップデートで、日本語、韓国語、中国語、ヒンディー語、ベンガル語などでのレンダリング能力が向上しています。
単に文字を翻訳するだけでなく、ポスターや図解、マンガのコマなどに、テキストをデザインの一部として自然に組み込んだ画像を生成できるようになりました。さまざまな言語圏での制作において、より使いやすいツールになっています。
スタイルの再現性とリアリズム
多様なビジュアルスタイルを表現する能力も向上しています。写真らしい現実味を出すための微細な要素(レンズフレアやフィルムの質感など)から、シネマティックな表現、ピクセルアート、マンガなど、さまざまな手法に対応しています。
質感や光の当たり方、構図などの一貫性が保たれており、指定したスタイルをより忠実に再現できるようになりました。ゲームのプロトタイプ作成や絵コンテ、マーケティング素材の作成などに役立ちます。
柔軟なアスペクト比(縦横比)のサポート
ワイドバナーやプレゼンテーションに適した横長(3:1)から、モバイル画面に合わせた縦長(1:3)まで、幅広いアスペクト比での生成に対応しています。プロンプトで希望の比率を指定したり、プリセットから選んで別サイズで作り直したりすることが可能です。
「推論(Thinking)モデル」との統合による進化
最新情報の反映(2025年12月までの知識)
Images 2.0は2025年12月までの情報を学習しており、より最新の文脈に沿った出力が可能です。
インフォグラフィックや教育用の図解など、見た目の美しさだけでなく情報の正確さや分かりやすさが求められる場面で力を発揮します。情報を整理し、適切な余白を持たせた見やすいレイアウトを作成する能力も備えています。
複数画像の同時生成と制作のサポート
ChatGPT内で「推論モデル(Thinking / Proモデル)」を選ぶと、Images 2.0は背後でより深くタスクを理解し、作業を進めます。必要に応じてWeb検索を行ったり、アップロードされた資料を図解にまとめたり、画像を生成する前に構図を論理的に組み立てたりてくれます。
さらに、一度に最大 8 枚の異なる画像を生成できるようになり、これらの処理をまとめて 1 回の指示で実行できるようになりました。
- マンガの連続した複数ページ
- 部屋ごとの異なるリデザイン案のセット
- 同一コンセプトのバリエーション出し
- SNS向けの異なるアスペクト比・多言語対応グラフィックの一括作成
キャラクターやオブジェクトの連続性を保ちながら、順序立てて構築された画像セットを一度に出力できるため、制作の手間を減らすことができます。
開発者・クリエイター向けの環境
Codexでの画像生成
プログラミング支援ツールのCodex内でも画像生成が使えるようになりました。
アプリのUI案やプロトタイプをいくつか作成し、良いアイデアをそのままコードやWebサイトに組み込むなど、デザインから開発までをひとつの場所で進められます。Codexでの画像作成はChatGPTのサブスクリプションで利用可能です(別途APIキーは不要です)。
APIでの提供(gpt-image-2)
開発者や企業向けに、API経由でgpt-image-2モデルが提供されています。テキストの描画能力の向上や多言語対応、さまざまなアスペクト比への対応により、地域向けの広告、デザインツール、クリエイティブプラットフォームへの組み込みがスムーズになります。
Adobe Fireflyをはじめ、Canva、Figma、OpenArtなどのプラットフォームで、すでに機能の統合や検証が進められています。
ComfyUIでのサポート(Partner Nodes)
ノードベースの画像生成ツール「ComfyUI」でも、Partner Nodesを通じてgpt-image-2モデルが利用できるようになりました。
ComfyUIのワークフローに組み込むことで、このモデルならではの特徴を活かした制作が可能になります。
- 推論による正確な生成: 文字やUI要素、アイコンなどをきれいにレンダリングできるため、テキストを多く含むメイン画像の生成に適しています。
- 一貫性を保った画像編集: 変更したい部分以外(顔のつくりや背景の細部など)を崩すことなく、最大2K解像度で自然な部分編集が可能です。モノクロ写真のカラー化や、昼から夜への時間帯の変更などがスムーズに行えます。
- 連続性のある複数画像生成: キャラクターや小物のデザインを保ったまま、1つのノードで最大8枚の画像を一度に出力できます。絵コンテやキャラクターの設定図作りに役立ちます。
GPT Image 2.0でベースとなる画像を生成し、その後の高解像度化(アップスケーリング)や動画への変換をローカルモデルに引き継ぐといった、ハイブリッドな作業手順をひとつの画面上で構築できるようになります。
利用の際は、ComfyUIを最新版(v0.19.4以降)にアップデートし、ノードライブラリから「OpenAI GPT Image 1.5」を検索してgpt-image-2モデルを選択してください(※Comfy Cloud版も近日対応予定です)。
現在の制限事項
さまざまな進化が見られるImages 2.0ですが、いくつかの制限も確認されています。次のようなタスクでは、まだ結果が不安定になることがあります。
- 完全で矛盾のない物理世界のモデル化(例:正確な折り紙の手順やルービックキューブの構造など)
- 隠れた面、角度のついた面、裏返った面における詳細の正確な描写
- 細かい砂粒のような、非常に高密度で反復的な視覚的ディテール
- 厳密な矢印やパーツのラベル付けに依存する複雑な図解(正確性の確認が必要です)
また、APIでの2K解像度以上の出力は現在ベータ版であり、状況によっては結果が安定しない場合があります。OpenAIはこれらを今後の重要な改善点として位置づけています。
提供状況と価格
ChatGPT Images 2.0は、本日よりすべてのChatGPTおよびCodexユーザーに向けて提供が開始されています。「推論」機能を活用した高度な出力は、ChatGPT Plus、Pro、Businessユーザーが利用可能です。
APIとしてのgpt-image-2(最先端の画像生成モデル)も利用可能となっており、料金は以下のようになっています。
| タイプ | 入力用 | キャッシュ入力用 | 出力用 |
|---|---|---|---|
| 画像 | $8.00 | $2.00 | $30.00 |
| テキスト | $5.00 | $1.25 | $10.00 |
詳細は公式の料金体系ページもご確認ください。また、モデルの安全性や制限事項に関する詳細なアプローチについては、公式のシステムカードにて公開されています。
























コメント