文字描画とレイアウト制御に強い ─ Ideogram 初のオープンウェイト画像生成モデル「Ideogram 4」が公開

CGソフト

2026年6月4日(現地時間)- 最先端のオープンウェイト画像生成モデル Ideogram 4.0 がリリースされました。

Ideogram 4.0とは

Ideogram 4 は、Ideogram(https://ideogram.ai/)が初めて公開するオープンウェイトの text-to-image(テキストから画像を生成する)モデルです。既存モデルのファインチューンではなく、ゼロから学習された最先端のファウンデーションモデルです。

このモデルでは、新たに構造化 JSON によるプロンプティング・インターフェースが導入されています。さらに、業界トップクラスの多言語テキストレンダリング、高度な言語理解、バウンディングボックスを用いた明示的なレイアウト制御とカラーパレット制御、ネイティブ 2K 解像度の画像出力を実現しています。

設計思想はデザイン用途を強く意識したもので、小さな文字や多言語にも対応する高精度なテキストレンダリングを備え、テキストからの生成(text-to-image)と既存画像の編集(image-to-image)を 1 つのモデルで扱えます。オブジェクトを狙った位置に配置できる領域指定、2K 解像度での写実的な出力、アルファチャンネル付きの透明背景出力にも対応しており、ロゴ・バナー・パッケージといったデザイン制作にそのまま活用できます。

さらに、重みが公開されているため、研究・非商用の範囲であれば自分のハードウェアにダウンロードしてファインチューニングや推論を行えます。テキストレンダリングと構図制御の面で、これまでのオープンウェイトモデルの水準を大きく引き上げる存在となっています。

Introducing Ideogram 4.0: The Best Open Image Model in the World

オープンソースで公開

過去を振り返れば、Chromiumがクローズドなブラウザエンジンを凌駕し、PyTorchが機械学習フレームワークの支配的な地位を確立したように、インターネットの大部分はオープンソースソフトウェアによって支えられています。生成AIの未来もオープンソースにあるとIdeogramは考えているとのことです。

ここ1年、クローズドな独自の画像モデルが、テキストのレンダリング、プロンプトへの忠実さ、写真のような写実性において新たな基準を打ち立ててきた一方で、オープンウェイトモデルは性能面で遅れをとっていました。Ideogram 4.0は、そのギャップを埋めるための最先端のオープンウェイト画像モデルとして、開発者や企業が共に構築していくためにリリースされました。

190カ国以上・300万人を超えるユーザーが投票で参加する、AI生成デザインを対象としたクラウドソーシング型ベンチマーク「DesignArena」のチャート(提供:@arcada_labs)では、Ideogram 4.0はオープンウェイトモデルの中で1位となっており、プロプライエタリなOpenAIやGoogleのモデルに次ぐ位置につけていることが示されています。

なお、公開されている重み(ウェイト)は、研究・非商用の用途に限ってダウンロード・利用できます。この範囲であれば、ファインチューニングや自分のハードウェア上でのローカル実行が可能です。

一方、本番環境での運用・自社インフラでのセルフホスティング・製品への組み込み(=商用展開)には、規模に応じた別途の有償ライセンスが必要です。

Ideogramは「オープンであることがイノベーションを促進する」との考えから研究コミュニティに協働を呼びかけていますが、ここで開放されているのはあくまで研究用の量子化重みであり、商業的に価値のある部分は有償ライセンスの対象である点に留意してください。

主な特徴

画像を描く前に「構造を読む」というアプローチ

Ideogram 4.0の技術的に最も特徴的な点は、その学習手法にあります。多くの画像生成モデルが画像とテキスト記述のペアから直接学習するのに対し、Ideogram 4.0は「Describe-to-Structure-to-Recreate(記述 → 構造化 → 再構築)」と呼ばれるループで学習されています。

モデルはまず、画像をシーン・背景・テキスト・個々のオブジェクトに分解し、それぞれをバウンディングボックス(領域指定)付きの構造化データ(JSON形式)として読み取ります。そのうえで、その構造表現から画像を再構築する方法を学習していきます。「先に構図を理解してから描く」ような訓練を経ているため、同規模のモデルと比べてテキストの配置精度やレイアウト制御性が高いという特徴があります。

コンポジション・コントロール

複雑なレイアウトを伴うデザイン作業では、プロンプトの文章だけで意図した構図を作るのは難しいものです。Ideogram 4.0は、画像の自然言語による記述に、バウンディングボックス(領域指定)を組み合わせた教師データで学習されています。

この学習を通じて「どのオブジェクトをどこに置くか」「テキストをどの範囲に配置するか」といった空間的な関係をモデルが内部に取り込んでいるため、推論時にユーザーがバウンディングボックスで配置を指示すれば、密度の高い複雑なレイアウトであっても、要素を意図した位置に正確に配置することができます。

上図の例では、「T-Rex」「フライングVギター」「ホオジロザメ」「黒猫」といった複数の要素が、指定されたバウンディングボックスの領域に従って正確に配置・合成されています。

デザイナーの実務を見据えた出力フォーマット

実際のデザイン現場では、AIが生成した一枚のフラットな画像をそのまま納品物にできることは稀です。見出しのコピーを差し替えたり、被写体を切り抜いて別レイアウトに配置したり、印刷向けに解像度を上げたりといった後工程が、必ずどこかで発生します。

Ideogram 4.0は、こうした編集前提のワークフローを最初から想定して設計されており、次のような機能により、生成後の後処理を外部ツールに頼らずに進められるようになっています。

  • 背景透過(アルファチャンネル):Background Remover機能により、生成された画像から不要な背景をきれいに除去し、アルファチャンネルを持った切り抜き素材として出力可能です。Photoshop等での手作業によるマスキングの手間を大幅に削減します。
  • テキストレイヤーの抽出:Layerize機能を使用することで、画像内の見出しや本文、グラフィック要素を個別の編集可能なレイヤーとして抽出できます。生成後に簡単にタイポグラフィの微調整や差し替えを行うことができます。

さらに、次回のアップデートでは、これらの機能が後処理(セカンドパス)としてではなく、モデルの推論プロセスから直接、アルファチャンネルや編集可能なテキストレイヤーとして出力されるようになる予定です。

エンタープライズ・ブランド向けの機能

現在、オープンウェイトの画像モデルは数多く存在しますが、企業のCIOやクリエイティブディレクターにとって重要なのは「どのモデルを標準化し、実務レベルの厳しい要件に耐え得るか」という点です。Ideogram 4.0は以下の点で、エンタープライズの要件に応えます。

  • 正確なブランド表現: 初期モデルから高い評価を得ていたテキストレンダリング能力に加え、バウンディングボックスによるレイアウト制御を実装。パッケージのコピーやロゴを、指示書(ブリーフ)通りの位置と内容で正確に出力します。
  • 自社のハウススタイルへの適応: 一般的な「AIらしい」テイストではなく、オープンウェイトモデルの特性を活かし、自社のスタイルガイドや過去のキャンペーン写真でファインチューニングを行うことができます。これにより、モデルの出力基準を自社ブランドのルック&フィールに合わせることが可能です。
  • セキュアで柔軟な運用: 自社内のハードウェアや、指定されたリージョンのファイアウォール内で実行可能です。推論コストは生成枚数ではなく、準備した計算リソースの規模に依存するため、大規模なマーケティング展開においてもコストの予測が立てやすくなります。

Ideogram 4.0は、あらゆる業種の企業向けに設計されており、オープンウェイト、商用ライセンス、そして企業が必要とするカスタマイズオプションが揃っています。自社のハードウェアで実行し、自社のデータで学習させ、生成された出力をファイアウォールの内側に保持することもできます。

モデルに内蔵されたセーフティフィルター

Ideogram 4.0のモデルウェイトには、独自の安全フィルター(セーフティフィルター)が直接組み込まれています。画像生成がブロックされたり、空白(または拒否された結果)が返されたりした場合、それは利用しているツール(ComfyUIなど)のフィルターによるものではなく、モデル自身のフィルターが作動した結果です。

この機能はIdeogramからリリースされたモデルの重み自体に組み込まれているため、ユーザー側で調整したり無効化したりすることはできません。意図せずブロックされてしまった場合は、ツールのバグとして報告するのではなく、プロンプトの表現を言い換えたり、ブロックの要因となりそうな要素を調整したりしてお試しください。

利用について

ComfyUIでの利用

Ideogram 4.0は93億(9.3B)のパラメータを持つテキストから画像を生成する基盤モデルであり、リリース初日(Day-0)から画像生成プラットフォーム「ComfyUI」でネイティブサポートされています。これにより、外部APIにプロンプトを送信することなく、自社のローカル環境で完結した運用が可能です。

ComfyUIでの導入手順

ComfyUIでIdeogram 4.0を使い始めるためのステップは以下の通りです。

  1. ComfyUIのアップデート: 最新バージョン(0.24.0以降)に更新します。
  2. ワークフローのダウンロード:テンプレートから選択または公式のIdeogram 4.0用ワークフローをダウンロードして読み込みます。
  3. モデルの配置: ComfyUI用に再パッケージ化されたモデルファイル(Comfy-Org/Ideogram-4)をダウンロードし、以下のディレクトリ構造になるように配置します。
    📂 ComfyUI/
    ├── 📂 models/
    │   ├── 📂 diffusion_models/
    │   │   ├── ideogram4_fp8_scaled.safetensors
    │   │   └── ideogram4_unconditional_fp8_scaled.safetensors
    │   ├── 📂 text_encoders/
    │   │   └── qwen3vl_8b_fp8_scaled.safetensors
    │   ├── 📂 vae/
    │   │   └── flux2-vae.safetensors
  4. 生成の実行: 自然言語のプロンプト、またはJSONフォーマットで詳細なプロンプトを記述して実行します。

JSONプロンプトによる精密なレイアウト制御

ComfyUI環境において、Ideogram 4.0の真価は、仕様書のように読み込める構造化JSONプロンプトによって発揮されます。通常のテキストプロンプトでは不可能な、以下の3つの詳細な制御が可能です。

  • カラーパレットの指定: 画像全体で最大16色、各要素ごとに最大5色まで、16進数(Hexコード)で具体的な色を指定できます。
  • バウンディングボックスによる配置: [y_min, x_min, y_max, x_max] の形式を用い、0〜1000の正規化された座標でオブジェクトやテキストの配置場所を正確に指示できます。
  • テキスト要素の分離: 画像内にレンダリングしたい文字列と、そのフォントやスタイルに関する記述を分けて指定できるため、より意図通りのタイポグラフィが実現します。

モデルは詳細に記述されたシーンを元に学習されているため、キャプション内で位置、色、要素ごとのスタイルといった関係性を具体的に指定するほど、より正確で意図に沿った結果が得られます。

{
  "high_level_description": "全体的な説明(プロンプト)",
  "style_description": {
    "aesthetics": "",
    "lighting": "",
    "photo": "",
    "medium": "",
    "color_palette": []  // 16進数のカラーコード
  },
  "compositional_deconstruction": {
    "background": "",
    "elements": [
      {
        "type": "obj",  // オブジェクトの場合
        "bbox": [],  // [y_min, x_min, y_max, x_max]
        "desc": "オブジェクトの詳しい説明",
        "color_palette": []
      },
      {
        "type": "text",  // テキストの場合
        "text": "レンダリングする文字列",
        "bbox": [],
        "desc": "フォントやスタイルの説明",
        "color_palette": []
      }
    ]
  }
}
    

拡張機能:ComfyUI-IdeogramHelper

手動で複雑なJSONを記述する手間を省くため、ComfyUI内で構造化JSONボックスプロンプトを視覚的に作成できる拡張機能「ComfyUI-IdeogramHelper」が公開されています。これにより、 キャンバス上でドラッグしてボックスを追加、移動して精密なレイアウトが可能です。

主な機能
  • 直感的なドラッグ&ドロップ操作: キャンバス上でドラッグしてボックスを追加、移動、リサイズが可能。Ctrl/Shiftキーを使った複数選択やグループ移動にも対応しています。
  • オブジェクトとテキストの細かな設定: ボックスごとに「オブジェクト」と「テキスト」を切り替え可能。テキストボックスにはレンダリングする文字列とその見た目の説明を個別に設定できます。
  • 視認性と柔軟な編集機能: 重なりを把握しやすいボックスの色分け、プロンプトから一時的に除外するミュート機能、複数箇所で同じ設定を共有するリンク機能を搭載。Undo/Redoや既存JSONのペーストにも対応しています。
  • スタイルパネルと参照用背景: 画像全体やボックス単位のカラーパレット指定が可能です。また、参照用画像(モデルには送信されません)を背景に敷いて、下書きとしてトレース配置することもできます。
  • App Mode対応: ComfyUIのノードグラフを非表示にし、全画面のプロンプトビルダーとして集中して作業できるスタンドアロンモードとしても機能します。
利用のステップを見る
  1. Ideogram Studio ノードを追加し、キャンバスとオーバーレイの基準となる解像度(アスペクト比×メガピクセル、または正確なサイズ)を設定します。
  2. 空のキャンバスをドラッグしてボックスを追加し、配置とサイズを調整します。それぞれを「オブジェクト」または「テキスト」に切り替えます。
  3. 全体像(Summary)、背景(Background)、各ボックスの説明(テキストボックスの場合はレンダリングする文字列も)、およびスタイルパネルを入力します。
  4. 出力された caption を、Ideogramサンプラーのプロンプト入力へ接続します。
  5. (オプション)extras 出力から Ideogram Studio Extras ノードを繋ぎます。取得したオーバーレイやマスク(alpha)を使って生成画像と合成(ImageCompositeMasked等)することで、モデルが指示通りに配置したかを確認できます。

リポジトリに用意されている workflow_example.png をComfyUIのキャンバスにドラッグ&ドロップするか、id4studio_workflow.json を読み込むことで、すぐに設定済みのサンプルワークフローを試すことが可能です。

用途に合わせて選べるAPIの料金体系

自社プロダクトへの組み込みや、ハードウェアを用意せずに即時の運用開始を検討している開発者向けに、ホスト型のAPIも提供されています。サブスクリプション契約は不要で、1枚あたりの従量課金制となっており、速度、コスト、出力品質のバランスに応じて3つの品質ティアから選択できます。

Turbo

速度とコストパフォーマンスを重視

$0.03 / 画像
Default

標準的な品質と速度のバランス

$0.06 / 画像
Quality

最高品質のレンダリングと忠実性

$0.10 / 画像

また、オープンウェイトモデルとして提供されるため、商用利用にも対応した柔軟なライセンスのもと、モデルの重み(ウェイト)をダウンロードして独自の環境で構築することが可能です。

関連リソース


Ideogram 4.0ウェブサイトへ

コメント

Translate »
タイトルとURLをコピーしました