ad

Black Forest Labs、4MP編集とマルチリファレンスに対応した次世代画像生成モデル「FLUX.2」を発表!

CGソフト

2025年11月25日(現地時間)- 2025年11月25日(現地時間)- Black Forest Labs は、同社の最先端のビジュアルインテリジェンスモデルであるFLUX.2を発表しました。

FLUX.2とは

FLUX.2 は、単なるデモや見せ物ではなく、実際のクリエイティブな制作ワークフローを支えるために設計されており、決まった形式の指示に従って複雑なテキストを処理し、複数の参照画像を使ってキャラクターやスタイルの一貫性を保つことができるようになりました。

さらに、ブランドガイドラインを守りながら照明・レイアウト・ロゴを正しく扱い、高品質な画像を生成することが可能です。加えて、ディテールと整合性を維持したまま最大4メガピクセルでの画像編集にも対応しています。

新機能と改善点

FLUX.1がメディアモデルのクリエイティブツールとしての可能性を示したのに対し、FLUX.2は最先端の能力が制作ワークフローをどのように変革できるかを示しています。

極めて精細なフォトリアル画像から、複雑なタイポグラフィを含むインフォグラフィックまで幅広く対応し、すべて最大4MPの解像度で生成することができます

  • マルチリファレンス(複数参照)対応:最大10枚の画像を同時に参照でき、現在利用可能なモデルの中で最高のキャラクター/製品/スタイルの一貫性を実現しています。
  • 画像のディテールとフォトリアリズム:より詳細な描写、シャープなテクスチャ、安定した照明を実現し、製品ショット、ビジュアライゼーション、写真のような用途に適しています。
  • テキストレンダリング:複雑なタイポグラフィ、インフォグラフィック、ミーム、そして判読可能な細かいテキストを含むUIモックアップが、本番環境で確実に機能するようになりました。
  • プロンプト追従性の強化:複数の要素を含むプロンプトや構図の制約など、複雑で構造化された指示への忠実度が向上しました。
  • 世界知識(World Knowledge):現実世界の知識、照明、空間的な論理に基づいた理解が大幅に深まり、期待通りの挙動を示す一貫性のあるシーンを生成します。
  • 高解像度と柔軟な入出力比:最大4MPの解像度での画像編集が可能になりました。

仕組みについて

FLUX.2は「Latent Flow Matching(潜在フローマッチング)」アーキテクチャを基盤に構築されており、画像生成と編集をひとつのアーキテクチャ内で統合しています。このモデルは、Mistral-3 24Bパラメータ視覚言語モデルとRectified Flow Transformerを組み合わせています。VLM(視覚言語モデル)は現実世界の知識や文脈理解を担い、Transformerは従来のアーキテクチャでは表現できなかった空間的な関係性、素材の特性、構成的な論理を捉えることができます。

さらにFLUX.2はマルチリファレンスに対応し、最大10枚の画像を組み合わせて新しい出力を生成できます。最大4MPの高解像度出力に加え、プロンプト追従性や世界知識の理解が大幅に向上し、タイポグラフィの表現も大きく改善されています。Black Forest Labsは、学習能力と画質を両立させるため、モデルの潜在空間(Latent Space)をゼロから再トレーニングしました。これは「学習能力・品質・圧縮」という三つの課題を同時に克服するための重要なステップとされています。

技術的な詳細はFLUX.2 VAEのブログ記事をご覧ください。

パフォーマンスについて

FLUX.2モデルファミリーは、最高品質の画像生成を極めて競争力のある価格で提供し、すべてのパフォーマンス層において最高の価値を実現しています。

オープンウェイトの画像モデルにおいて、FLUX.2 [dev]は新たな基準を打ち立てました。テキストからの画像生成、単一参照画像による編集、複数参照画像による編集のすべてにおいてトップクラスの性能を発揮し、すべてのオープンウェイトの代替モデルを一貫して大きく上回っています。

オープンかクローズドかに関わらず、同社はリリースの前後を通じて、これらのモデルとサービスの責任ある開発に取り組んでいるとしています。

FLUX.2 プロンプトガイド

FLUX.2は、高度なプロンプト解釈能力を備えています。特に構造化JSONプロンプト、正確な16進数カラー指定、マルチリファレンス編集をサポートし、クリエイターの意図を忠実に再現することができます。

1. 構造化JSONプロンプト

シーン、照明、被写体などをJSON形式で記述することで、要素ごとの詳細な制御が可能になります。

{
  "scene": "...", 
  "subjects": [{"description": "..."}],
  "lighting": "softbox setup",
  "style": "photorealistic"
}

2. Hexカラー指定

16進数コードを使用して、ブランドカラーや特定の色味を正確に指定できます。

color #FF5733 

or

 hex #02eb3c

3. マルチリファレンス編集

複数の参照画像([pro]版では最大8枚まで)を組み合わせ、キャラクターの一貫性維持や、ファッションアイテムの合成などが可能です。

4. 多言語対応

英語だけでなく、日本語を含む多言語でのプロンプト入力が可能です。現地の文脈を反映したい場合、その言語で記述するとより自然な結果が得られます。

テクニック使用場面主要な構文・特徴
JSON Prompts複雑なシーン、自動化{“scene”: “…”, “style”: “…”}
Hex Colors正確な色指定color #FF5733
Camera Referencesフォトリアリズムshot on [camera], [lens]
Multi-Reference合成画像[pro]: max 8, [flex]: max 10

💡 Tip: ネガティブプロンプトは不要

FLUX.2はネガティブプロンプトをサポートしていません。「何をしてほしくないか」ではなく、「何をしてほしいか」を描写することに集中することが推奨されます。

より詳しいプロンプトガイドはこちらから

利用について

Black Forest Labsは、オープンコアという思想の元、ビジュアルインテリジェンス(視覚的知能)は一部の人々だけでなく、世界中の研究者、クリエイター、開発者によって形作られるべきだと考えています。

そのため同社は、最先端の能力とオープンな研究・イノベーションを組み合わせ、コミュニティ向けには強力で検証可能かつ構成可能な「オープンウェイトモデル」を、そして規模や信頼性、カスタマイズ性を必要とするチーム向けには堅牢で本番環境に対応した「APIエンドポイント」を提供しています。

設立背景とオープンコアの取り組みについて

2024年のBlack Forest Labs設立にあたり、同社は世界で最も人気のあるオープンモデルを開発してきた経験を活かし、オープンイノベーションを持続可能なものにすることを目指しました。世界で最も人気のあるオープン画像モデルであるFLUX.1 [dev]のようなオープンモデルと、AdobeやMetaなどのチームを支えるFLUX.1 Kontext [pro]のようなプロフェッショナルグレードのモデルを組み合わせています。この「オープンコア」アプローチにより、実験が促進され、検証が可能になり、コストが削減されます。そして、Black Forest(シュヴァルツヴァルト)やベイエリアから世界へ向けて、オープンな技術を共有し続けることを可能にしています。

FLUX.2ファミリーは、完全に管理された本番環境向けのAPIから、開発者が自分で実行できるオープンウェイトのチェックポイントまで、幅広いモデル製品を提供しています。以下の概要では、FLUX.2 [pro]、FLUX.2 [flex]、FLUX.2 [dev]、FLUX.2 [klein]が、それぞれ性能と制御性のどちらに重点を置き、利用者にどのような選択肢を示しているかを説明しています。

  • FLUX.2 [pro]: 最高のクローズドモデルに匹敵する最高峰の画質を提供します。プロンプトへの忠実さと視覚的な再現性において他のモデルと肩を並べつつ、より高速かつ低コストで画像を生成します。速度と品質の間で妥協する必要はありません。 → BFL PlaygroundBFL API、およびローンチパートナー経由で利用可能です。
  • FLUX.2 [flex]: ステップ数やガイダンススケールなどのモデルパラメータを制御でき、開発者が品質、プロンプト忠実度、速度を完全にコントロール可能です。このモデルは、テキストや細かいディテールのレンダリングに優れています。 → bfl.ai/playBFL API、およびローンチパートナー経由で利用可能です。
  • FLUX.2 [dev]: FLUX.2ベースモデルから派生した320億(32B)パラメータのオープンウェイトモデル。テキストからの画像生成(Text-to-Image)と、複数の入力画像を用いた画像編集を単一のチェックポイントで実現する、現在利用可能な最も強力なオープンウェイト画像生成・編集モデルです。FLUX.2 [dev]のウェイトはHugging Faceで公開されており、リファレンス推論コードを使用してローカルで実行できます。GeForce RTXなどのコンシューマー向けGPUでは、NVIDIAおよびComfyUIと共同で作成された最適化済みのfp8リファレンス実装を使用できます。また、FALReplicateRunwareVerdaTogetherAICloudflareDeepInfraのAPIエンドポイント経由でFLUX.2 [dev]を試すことも可能です。商用ライセンスについては、同社のウェブサイトをご覧ください。
  • FLUX.2 [klein] (近日公開): FLUX.2ベースモデルからサイズを蒸留(Distilled)した、Apache 2.0ライセンスのオープンソースモデル。ゼロからトレーニングされた同サイズのモデルよりも強力で開発者に優しく、教師モデル(FLUX.2)の能力の多くを備えています。ベータ版に参加する
  • FLUX.2 – VAE: 学習能力、品質、圧縮率の最適なトレードオフを提供する、潜在表現のための新しい変分オートエンコーダ(VAE)。このモデルはすべてのFLUX.2フローバックボーンの基盤となります。技術的な特性を詳述したレポートはこちらで閲覧可能です。FLUX.2 – VAEはApache 2.0ライセンスの下、Hugging Faceで利用可能です

性能と制御性の比較表

モデル名性能(パフォーマンス)制御性
FLUX.2 [pro]最高峰の画質を高速かつ低コストで提供。速度と品質を両立。制御性は限定的。プロンプト忠実度と再現性を重視。
FLUX.2 [flex]テキストや細部のレンダリングに優れる。品質と速度を調整可能。ステップ数やガイダンススケールなどを開発者が細かく制御可能。
FLUX.2 [dev]32Bパラメータの強力なオープンウェイトモデル。生成・編集を単一で実現。オープンウェイト公開。ローカル実行や最適化実装で自由度が高い。
FLUX.2 [klein]蒸留による軽量化で小型ながら性能維持。Apache 2.0ライセンスのオープンソース。開発者に優しい制御性。
FLUX.2 – VAE学習能力・品質・圧縮率の最適なトレードオフを提供。FLUX.2全モデルの基盤。潜在表現の基盤技術。直接的な制御性は限定的。

ステップ数によるデザインとディテールの制御

ステップ数の違いによるデザインの違い

FLUX.2 [flex]は「ステップ数」パラメータを提供し、タイポグラフィの精度と待ち時間(レイテンシ)のトレードオフを調整できます。左から順に:6ステップ、20ステップ、50ステップ。

ステップ数の違いによるディテール制御の違い

FLUX.2 [flex]は「ステップ数」パラメータを提供し、画像のディテールと待ち時間のトレードオフを調整できます。左から順に:6ステップ、20ステップ、50ステップ。

関連リソース


FLUX.2: Frontier Visual Intelligence

コメント

Translate »
タイトルとURLをコピーしました