新しいテキストから画像生成モデル『FLUX.1』モデルの紹介です。
2024年8月1日(現地時間) – Black Forest Labs は設立と同時に、text-to-imageの最新モデル FLUX.1モデルファミリーを発表しました。
Black Forest Labs について
Black Forest Labs は、学術、産業、オープンソース環境において、基礎的な生成AIモデルの開発において優れた実績を持つ、AI研究者とエンジニアからなるチームです。
これまでのイノベーションには、VQGANやLatent Diffusionの開発、画像・動画生成のためのStable Diffusionモデル(Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers))、超高速リアルタイム画像合成のためのAdversarial Diffusion Distillation などが含まれています。
このチームの信念の柱は、広くアクセス可能なモデルは、研究コミュニティや学界における技術革新やコラボレーションを促進するだけでなく、信頼と幅広い採用のために不可欠な透明性を高めることであり、最高品質の技術を開発し、可能な限り多くの人々がアクセスできるよう努力しているとのことです。
ヨーロッパ発の生成AIメディアの業界標準を構築することを目指しており、この度発表された FLUX.1モデルはその目標に向けた第一歩とされています。
FLUX.1モデルファミリー
FLUX.1は、テキストから画像への合成において、画像の詳細性、プロンプトの忠実性、スタイルの多様性、シーンの複雑性において、新たな最先端を定義するテキストから画像への合成モデル群です。
これらのモデルは、Midjourney v6.0やDALL-E 3を上回る新しいモデルとして注目を集めています。
FLUX.1には、アクセシビリティとモデル機能のバランスを取るために、FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]という3つのバリエーションがあります。
FLUX.1 [pro]
FLUX.1 [pro]は、最先端技術を駆使し、プロンプトの追従性、ビジュアルクオリティ、画像のディテール、出力の多様性を実現したFLUX.1のベスト版です。
FLUX.1 [pro]へのアクセスは、こちらのAPIからサインアップできます。
他にもFLUX.1 [pro]は Replicate および fal.ai.からも利用することができます。
カスタマイズされた企業向けソリューションも提供されています。お問い合わせは flux@blackforestlabs.ai から
■価格について
FLUX.1 [pro]のデフォルト設定では画像1枚あたり0.05ドル。それ以外の場合は
cost = 0.05$ x (width / 1024) x (height / 1024) x (steps / 50)
FLUX.1 [dev]
FLUX.1 [pro]から直接抽出されたFLUX.1 [dev]は、同サイズの標準モデルよりも効率的でありながら、同様の品質と迅速な遵守能力を備えています。
■主な特徴
- FLUX.1 [pro]モデルに次ぐ最先端の出力品質。
- 競争力のあるプロンプトのフォロー、クローズドソースの代替品と同等のパフォーマンス。
- ガイダンス蒸留を使用してトレーニングすることで、
FLUX.1 [dev]
の効率が向上。 - 新しい科学研究を推進し、アーティストが革新的なワークフローを開発できるよう、オープンなウェイトを提供。
- 生成された出力は、 flux-1-dev-non-commercial-licenseに記載されているように、個人、科学、商業目的で使用できます。
FLUX.1 [dev]のウェイトは HuggingFace で入手可能です。
また、 Replicate または Fal.aiで直接試すことができます。
商業的な場面での応用については、こちら( flux@blackforestlabs.ai)へお問い合わせ。
FLUX.1 [schnell]
このモデルはローカル開発および個人使用向けに調整された、FLUX.1の最速モデルです。
■主な特徴
- 最先端の出力品質と競争力のある迅速な対応により、クローズド ソースの代替品のパフォーマンスに匹敵します。
- 潜在的敵対的拡散蒸留法を使用してトレーニングされ、
FLUX.1 [schnell]
わずか 1 ~ 4 ステップで高品質の画像を生成できます。 - ライセンスに基づいてリリースされた
apache-2.0
モデルは、個人、科学、商業目的で使用できます。
FLUX.1 [schnell]は、Apache2.0ライセンスの下でオープンに利用可能です。
FLUX.1 [dev]と同様にウェイトはHugging Faceで入手でき、推論コードは GitHub と HuggingFace’s Diffusersで見つけることができます。
さらに、ComfyUIに1日目から統合にされ、利用することができます。
ということでComfyUIで試して、dev と schnell を比較してみました。
公式は24GB近くあるので非公式ですがfp8モデルを使用しています。すでにワークフローがたくさん公開されていますが、今回はCivitaiの最初に出てくるこちらを使用してみました。
比較はすべてseed固定して同じテキストを使用しています。スペック通りdev版の方が若干良い結果が得られる感じがします。
ベンチマークでMidjourney v6.0、DALL-E 3 (HD)、SD3-Ultraを上回る
FLUX.1 は、モデルは、それぞれのモデルクラスにおいて新たな基準を打ち立てました。FLUX.1[pro]と[dev]は、Midjourney v6.0、DALL-E 3 (HD)、SD3-Ultraのような一般的なモデルをビジュアル品質、プロンプトフォロー、サイズ/アスペクトの多様性、タイポグラフィ、出力の多様性の各項目で上回っています
FLUX.1[schnell]は、これまでで最も進化した数ステップモデルであり、同クラスの競合モデルだけでなく、Midjourney v6.0やDALL-E 3 (HD)のような強力な非蒸留モデルも上回っています。 このモデルは、プレトレーニングからの出力多様性全体を維持するように特別に微調整されています。
現在の最先端技術と比較すると、以下のようになっています。
すべての FLUX.1 モデル バリアントは、次の例に示すように、0.1 メガピクセルと 2.0 メガピクセルのさまざまなアスペクト比と解像度をサポートしています。

仕組みについて
すべての公開FLUX.1モデルは、マルチモーダル(multimodal )およびパラレル拡散トランスフォーマー( parallel diffusion transformer )ブロックのハイブリッドアーキテクチャに基づいており、12Bパラメータにスケールされています。
拡散を特別なケースとして含む生成モデルを学習するための、一般的で概念的に単純な手法であるフローマッチング( flow matching,)
さらに、回転位置埋め込み(rotary positional embeddings)と並列注意層(parallel attention layers)を組み込むことで、モデル性能を向上させ、ハードウェア効率も改善しています。
近い将来、より詳細な技術レポートが発表される予定です。
動画生成モデルも開発中
FLUX.1 Text-to-image モデルを基盤とした生成text-to-videoシステム群が今後リリース予定です。
動画モデルは高精細でかつてないスピードでの正確な作成と編集を可能になるとのことです。
コメント