Black Forest Labs、文脈を理解する次世代の画像生成・編集モデル「FLUX.1 Kontext」

CGソフト

2025年5月29日(現地時間)- Black Forest Labsは、画像生成および編集を可能にする新しい生成フローマッチングモデル群「FLUX.1 Kontext」と、同社の最先端FLUXモデルを技術的な統合なしにテストできる「BFL Playground」を発表しました。

FLUX.1 Kontext とは

FLUX.1 Kontextは、テキストと画像の両方をプロンプトとして使用できる「インコンテキスト」画像生成を実現し、文脈を理解する次世代の画像生成・編集モデルです。

このモデルにより、ユーザーは視覚的な概念をシームレスに抽出し、変更を加え、一貫性のある新しい画像を生成することが可能になります。

主な特徴と機能は以下の通りです。

  • 一貫性と文脈を意識したテキスト&画像生成・編集: テキスト指示による画像編集とテキストからの画像生成を統合。キャラクターの一貫性、文脈理解、ローカル編集能力に優れ、高品質なテキストからの画像合成も実現します。
  • 強化されたテキストからの画像生成能力: アイデア創出、下書き、コンセプトデザインなど、様々な用途で最先端の画像生成結果を提供。プロンプトへの忠実性、写実的なレンダリング、競争力のあるタイポグラフィを、既存の主要モデルよりも最大8倍高速な推論速度で実現します。
  • 画像からの編集と生成: 既存の画像を理解し、それに基づいて新しい画像を生成できます。簡単なテキスト指示で入力画像を修正でき、微調整や複雑な編集ワークフローは不要です。
    • キャラクターの一貫性: 参照キャラクターやオブジェクトなど、画像のユニークな要素を複数のシーンや環境にわたって維持します。
    • ローカル編集: 画像の他の部分に影響を与えることなく、特定の要素を対象とした修正を行います。
    • スタイル参照: テキストプロンプトによって指示されながら、参照画像からユニークなスタイルを維持しつつ新しいシーンを生成します。
    • インタラクティブな速度: 画像生成と編集の両方で遅延を最小限に抑えます。
  • 反復的な編集: 指示を段階的に追加し、以前の編集に基づいて構築することで、画質とキャラクターの一貫性を維持しながら、最小限の遅延で作品を段階的に洗練させることができます。

左:入力画像、中央:入力からの編集:「カメラに向かって頭を傾ける」、右:「彼女を笑わせる」

パフォーマンスと課題について

Black Forest Labsは、FLUX.1 Kontextモデルの性能を検証するために広範な評価を実施し、その結果を技術レポートで公開しています。

KontextBenchと名付けられた独自のベンチマークを使用し、テキストからの画像生成タスクと画像からの画像生成タスクの両方で高い評価を得ており、特にテキスト編集とキャラクター保存においては最高のスコアを達成しています。また、推論速度においても競合モデルを大幅に上回る結果を示しています。

  • 画像生成タスク
  • 推論速度
  • 品質

6つのコンテキスト内画像生成タスクの評価結果。

FLUX.1 Kontext [pro]は、すべてのタスクで常にトップクラスのパフォーマンスを示し、テキスト編集と文字保存において最高得点を獲得しました。

FLUX.1 Kontext モデルは、テキストから画像への生成 (左) と画像編集 (右) の両方において、競合する最先端モデルよりも一貫して低いレイテンシを実現しています。

FLUX.1 Kontext を、複数の品質基準におけるテキストから画像への変換ベンチマーク。FLUX.1 Kontext モデルは、美観、プロンプトの追従性、タイポグラフィ、リアリズムのベンチマークにおいて、競争力のあるパフォーマンスを発揮しました。


一方で、現在の実装にはいくつかの制限事項も認識されています。過度な複数ターン編集セッションでは画質が低下する可能性や、稀にプロンプトの指示を正確に追従できない場合があること、世界の知識が限定的であること、蒸留プロセスによる視覚的アーティファクトの発生などが挙げられています。

FLUX.1 Kontext の障害事例の図: 6 回の反復編集後、生成は視覚的に劣化し、目に見えるアーティファクトが含まれます。

利用について

Black Forest Labsは、BFL APIを通じて2つの新しいインコンテキスト画像モデルを提供します。

FLUX.1 Kontext モデル群:

  • FLUX.1 Kontext [pro]: 高速で反復的な画像編集のパイオニア。ローカル編集、生成的なインコンテキスト変更、従来のテキストからの画像生成を単一モデルで実現します。テキストと参照画像の両方を入力として処理し、特定の画像領域でのターゲットを絞ったローカル編集やシーン全体の複雑な変換をシームレスに可能にします。キャラクター、アイデンティティ、スタイル、特徴的な要素を異なるシーンや視点間で一貫して維持しながら、複数のターンを通じて以前の編集に基づいて構築できる初のモデルとされています。
  • FLUX.1 Kontext [max]: 高速性を損なうことなく、プロンプトへの忠実性、タイポグラフィ生成、編集における高い一貫性を大幅に向上させた新しい実験的モデルです。

これらのモデルは、 KreaAIFreepikLightricksOpenArtLeonardoAIなどのプラットフォームや、FALReplicateRunwareDataCrunchTogetherAIComfyOrg といったインフラストラクチャパートナーを通じて利用可能です。

  • FLUX.1 Kontext [dev] :カスタマイズに適し、以前のFLUX.1 [dev]推論コードと互換性のある、オープン重み版。

さらに、研究用途と安全性テストのためのプライベートベータ版として、軽量な12B拡散トランスフォーマーであるオープンウェイト版FLUX.1 Kontext [dev]も開発されました。興味のある方は、kontext-dev@blackforestlabs.aiまで連絡してほしいとのことです。

FLUX.1 Kontext [dev]は、パブリックリリース後、FALReplicateRunwareDataCrunchTogetherAIHuggingFaceを通じて配布される予定です。

BFL Playground

リリース以来ある、モデルのテストとデモをより簡単にしてほしいという要望に応える形で、最先端FLUXモデルを技術的な統合なしにテストできる合理化されたインターフェース「LUX Playground」が発表されました。

Playgroundを利用することで、開発者やチームはユースケースを検証し、関係者に機能をデモンストレーションし、高度な画像生成をリアルタイムで実験することができます。技術的な実現可能性を評価する場合でも、意思決定者に結果を示す場合でも、Playgroundは完全なAPI実装に移行する前にFLUXの機能を評価するための即時アクセスを提供します。

Black Forest Labsは、メディア生成のための最先端モデルとインフラストラクチャを構築することを使命としており、BFL PlaygroundはそのBFL APIへの入り口として、評価から本番展開までの道のりを加速させることを目指しているとのことです。

BFL Playground ページへ


Introducing FLUX.1 Kontext and the BFL Playground

コメント

Translate »
タイトルとURLをコピーしました