2024年11月21日(現地時間) – Black forest labs は、オープンソースの画像生成モデル FLUX 向けの新しいモデル群FLUX.1 Toolsのリリースを発表しました。
FLUX.1 Tools とは
FLUX.1 Toolsは、FLUX.1のベースモデルであるtext-to-image model FLUX.1にコントロールと調整機能を追加するために設計されたモデル群で、実際の画像や生成された画像の修正や再作成を可能にします。
新しいモデルには以下のものがあります。
- FLUX.1 Fill:最先端のインペインティングとアウトペインティングのモデルで、テキスト記述とバイナリマスクが与えられた実画像と生成画像の編集と拡張が可能。
- FLUX.1 Depth:深度: 入力画像とテキストプロンプトから抽出された深度マップに基づく構造ガイダンスを可能にするために学習されたモデル。
- FLUX.1 Canny: 入力画像とテキストプロンプトから抽出されたキャニーエッジに基づいて構造ガイダンスを可能にするように学習されたモデル。
- FLUX.1 Redux:入力画像とテキストプロンプトを混ぜて再作成できるアダプタ。
FLUX.1 Toolsは、FLUX.1 [dev]モデルシリーズのオープンアクセスモデルとして、またFLUX.1 [pro]を補完するBFL APIとして利用可能です。
BFLのAPIでは、各ツールはFLUX.1 [pro]バリアントとして、また推論コードとウェイトはFLUX.1 [dev]バリアントとして公開されています。さらに、リリースされたモデルは、パートナーであるfal.ai、Replicate、Together.ai、Freepik、krea.aiを通じて利用可能です。
詳細は以下の通りです。
FLUX.1 Fillによるインペイントとアウトペイント
FLUX.1 Fillでは、Ideogram 2.0のような既存のツールや、AlimamaCreativeのFLUX-Controlnet-Inpaintingのような人気のあるオープンソースの亜種を凌ぐ、高度なインペイント機能が導入されています。既存の画像と自然に統合するシームレスな編集が可能です。

さらに、FLUX.1 Fillはアウトペインティングをサポートしており、ユーザーは画像を元の境界線を越えて拡張することができます。

ベンチマークを実施した結果、FLUX.1 Fill [pro]は、他のすべての競合手法を上回り、現在までのところ最先端のインペイントモデルであることがわかっているとのことです。2番目はFlux.1 Fill [dev]で、推論効率に優れながら、独自のソリューションを上回っています。

Flux.1 Fill [dev]はFlux Dev Licenseの下で利用可能です。
FLUX.1 Canny / Depthによる構造条件付け
キャニーエッジ検出または深度検出を使用して、画像の変換中に正確な制御を行うことができます。エッジマップやデプスマップを通して元の画像の構造を保持することで、ユーザーは核となる構図を維持したまま、テキストガイド付きの編集を行うことができます。これは特に画像のリテクスチャに効果的です。

Black forest labs の評価では、、FLUX.1 DepthはMidjourney ReTextureのようなオリジナルモデルを上回っているとされています。特に、FLUX.1 Depth [pro]は、より高い出力多様性を提供し、FLUX.1 DepthのDevバージョンは、深度を考慮したタスクでより一貫した結果を得ることができます。キャニーエッジモデルのベンチマークでは、FLUX.1 Canny [pro]がクラス最高で、FLUX.1 Canny [dev]がそれに続きます。

FLUX.1 Canny / Depthには、最大のパフォーマンスを発揮するフルモデルと、開発が容易なFLUX.1 [dev]をベースにしたLoRAバージョンの2種類があります。
Flux Depth / Canny [dev]は、FLUX Dev Licenseのもと、以下の内容で入手可能です。
- Hugging Faceで利用可能なフルモデルウェイト: [Depth] [Canny]
- LoRAの重みはHugging Face: [Depth] [Canny]
- 推論コードは GitHubで入手可能
- Flux.1 Depth / Canny [pro] はBFL APIで利用可能です。
FLUX.1 Reduxによる画像のバリエーションとリスタイリング
FLUX.1 Reduxは、画像のバリエーションを生成するためのFLUX.1ベースモデル用のアダプタです。入力画像があれば、FLUX.1 Reduxはわずかなバリエーションで画像を再現し、与えられた画像を洗練させることができます。
より複雑なワークフローにも自然に統合することができ、プロンプトを介して画像のスタイル変更を行うことができます。画像とプロンプトを提供することで、FLUX.1 ReduxのAPIを通じて画像の再構築が可能です。この機能は、最新モデルのFLUX1.1 [pro] Ultraでサポートされており、入力画像とテキストプロンプトを組み合わせて、柔軟なアスペクト比を持つ高品質の400万画素出力を作成することができます。

ベンチマークでは、FLUX.1 Reduxが画像バリエーションにおいて最先端の性能を達成していることを実証しています。

FLUX.1Redux[dev]は、FLUX Dev Licenseの下で利用可能です。
- モデルの重みはHugging Face: [Redux]
- 推論コードはGitHubで入手可能
- FLUX1.1 [pro] UltraをサポートするFlux.1 Reduxは、BFL APIで利用可能です。
コメント