2025年3月25日(現地時間)- Open AI は、ChatGPTのデフォルトの画像ジェネレータとなる 4o 画像生成モデルを発表しました。
OpenAI では、画像生成が言語モデルの主要な機能であるべきと考えており、これまでで最も高度な画像ジェネレーターを GPT-4o に組み込みました。
その結果、ChatGPTのデフォルトの画像ジェネレータとなる4o画像生成機能は、美しいだけでなくより実用的な画像生成ツールとなっています。
より実用的なツールに
GPT-4oの画像生成は、テキストの正確なレンダリング、プロンプトの厳密な遵守、そして4oの持つ知識ベースやチャットコンテキストの活用に優れています。これには、アップロードされた画像を変換したり、視覚的なインスピレーションとして使用したりする機能、透過画像を生成する機能も含まれます。
これらの機能により、思い描いた画像を正確に作成しやすくなり、視覚を通じた効果的なコミュニケーションを支援するとともに、画像生成を精度とパワーを兼ね備えた実用的なツールとなっています。
機能の向上
テキストレンダリング
4oでは、画像内にテキストを正確に配置する能力が向上。

多段階生成
画像生成がGPT-4oにネイティブに組み込まれたことで、自然な会話を通じて画像を改良できるようになりました。
GPT-4oは、チャットコンテキスト内の画像とテキストに基づいて画像を生成し、全体を通して一貫性を確保します。たとえば、ビデオゲームのキャラクターをデザインする場合、キャラクターの外観は複数回繰り返し改良と実験を重ねても一貫性を保つことができます。

指示の追従
GPT-4oの画像生成は、細部への注意を払いながら詳細なプロンプトに従います。他のシステムが約5〜8個のオブジェクトに苦労するのに対し、GPT-4oは最大10〜20個の異なるオブジェクトを処理することが可能です。オブジェクトとその特性および関係のより緊密な結合により、より優れた制御ができます。

コンテキスト内学習
GPT-4oは、ユーザーがアップロードした画像を分析して学習し、その詳細をコンテキストにシームレスに統合して画像生成に役立てることができます。

世界知識
ネイティブな画像生成により、4oはテキストと画像の間で知識を関連付けることができ、よりスマートで効率的なモデルを実現。

フォトリアリズムとスタイル
多様な画像スタイルを反映した画像で訓練することで、モデルは説得力のある画像の作成や変換が可能になります。

プロンプトを表示
A candid paparazzi-style photo of Karl Marx hurriedly walking through the parking lot of the Mall of America, glancing over his shoulder with a startled expression as he tries to avoid being photographed. He’s clutching multiple glossy shopping bags filled with luxury goods. His coat flutters behind him in the wind, and one of the bags is swinging as if he’s mid-stride. Blurred background with cars and a glowing mall entrance to emphasize motion. Flash glare from the camera partially overexposes the image, giving it a chaotic, tabloid feel.

プロンプトを表示
A realistic underwater scene with dolphins swimming through the windows of an abandoned subway car, with bubbles and detailed water flow accurately simulated.
制限事項
OpenAIのモデルは完璧ではありません。現在、複数の制限事項が確認されており、初期リリース後のモデル改善を通じて対応していく予定とのことです。
切り抜き:
- GPT-4oがポスターのような長い画像を、特に下部付近で過度に切り抜いてしまうことがあることを確認しています。
ハルシネーション(幻覚):
- 他のテキストモデルと同様に、画像生成も情報を捏造することがあります。特にコンテキストが少ないプロンプトの場合に顕著です。
結合度の高い画像の問題:
- 知識ベースに依存する画像を生成する際、完全な周期表のように、一度に10〜20個を超える異なる概念を正確にレンダリングするのが難しい場合があります。
多言語テキストレンダリング:
- モデルは、非ラテン言語のレンダリングに苦労することがあり、特に複雑な場合には文字が不正確になったり、ハルシネーション(幻覚)を起こしたりすることがあります。
編集精度:
- 画像の特定の部分(誤字脱字など)を編集するリクエストが常に効果的であるとは限らず、リクエストされていない他の部分も変更したり、さらにエラーが発生したりすることがあることを確認しています。現在、モデルの編集精度を向上させるよう取り組んでいます。
- ユーザーがアップロードした顔の編集の一貫性を維持するのに苦労するバグを認識していますが、1週間以内に修正される見込みです。
小さなテキストを含む密な情報:
- モデルは、非常に小さなサイズで詳細情報をレンダリングするように求められた場合に苦労することが知られています。
安全性について
OpenAIは、モデル仕様に従い、ゲーム開発、歴史探求、教育などの価値あるユースケースをサポートすることで創造的な自由を最大化することを目指すと同時に、強力な安全基準を維持しており、基準を違反するリクエストをブロックするように設計されています。
- C2PAおよび内部可逆検索による出所証明:
生成されたすべての画像には、透明性を提供するために、画像がGPT-4oからのものであることを識別するC2PAメタデータが付属しています。また、生成の技術的属性を使用して、コンテンツがOpenAIのモデルからのものであるかどうかを検証するのに役立つ内部検索ツールも構築されました。 - 有害なコンテンツのブロック:
児童性的虐待資料や性的ディープフェイクなど、OpenAIのコンテンツポリシーに違反する可能性のある生成画像の要求をブロックし続けています。実在の人物の画像がコンテキスト内にある場合、どのような画像を作成できるかについて制限を強化しており、特にヌードや暴力的な描写に関しては強固な安全対策を講じています。あらゆるリリースと同様に、安全性に終わりはなく、継続的な投資領域とされており、このモデルの実際の使用状況について詳しく知るにつれて、ポリシーは適宜調整されます。 - 推論を使用して安全性を強化:
OpenAIのアラインメントの取り組みと同様に、人間が記述し解釈可能な安全仕様から直接機能する推論LLMを訓練。開発中にこの推論LLMを使用して、ポリシーのあいまいさを特定し対処するのに役立てました。マルチモーダルな進歩と、ChatGPTおよびSora向けに開発された既存の安全技術と組み合わせることで、入力テキストと出力画像の両方をポリシーに対してモデレートできます。
アクセスと利用について
GPT-4oによる画像生成は、本日よりPlus、Pro、Team、Freeの全ユーザーを対象に、ChatGPTとSoraでデフォルトの画像ジェネレーターとして提供開始されます。(DALL·Eを好む方も、専用のDALL·E GPTを通じて引き続きアクセス可能。)
EnterpriseおよびEduユーザーも近日中に利用可能になります。
開発者は、数週間以内にAPI経由でGPT-4oを使用して画像を生成できるようになる予定です。
このモデルはより詳細な画像を生成するため、画像のレンダリングに時間がかかり、最大で1分かかるとのことです。
コメント