4月28日(現地時間) – Stability AI は、同社のマルチモーダルAI リサーチラボ DeepFloyd と共に、強力なテキストから画像へのカスケード型ピクセルdiffusion モデルである DeepFloyd IF のリサーチリリースを発表しました。
DeepFloyd IF
DeepFloyd IFは、非商用で研究が許されるライセンスでリリースされた最先端のテキスト画像生成モデルで、研究室が高度なテキスト画像生成アプローチを検討・実験する機会を提供します。
DeepFloyd IFの研究は、アート、デザイン、ストーリーテリング、バーチャルリアリティ、アクセシビリティなど、様々な領域で新しいアプリケーションの開発につながると考えられており、この最先端のテキストから画像へのモデルの可能性を最大限に引き出すことで、研究者は幅広いユーザーや業界に利益をもたらす革新的なソリューションを生み出すことができるとされています。
■概要と特徴
テキストプロンプトの深い理解:
生成パイプラインでは、テキストエンコーダとして大規模言語モデル T5-XXL-1.1を使用します。また、テキストと画像のクロスアテンションレイヤーを大幅に増やすことで、プロンプトと画像の連携が向上しています。テキスト説明を画像に適用:
T5モデルのインテリジェンスを取り入れたDeepFloyd IFは、様々な空間関係に現れる異なる性質のオブジェクトと共に、首尾一貫した明確なテキストを生成できます。これまで、これらのユースケースは、ほとんどのテキストから画像へのモデルにとって困難なものでした。高度なフォトリアリズムを実現:
この特性は COCOデータセット における、ゼロショットFIDスコア6.66という印象的な数値に表れています。(FIDはテキストから画像への変換モデルの性能を評価するための主要な指標で、スコアが低いほど優れている)アスペクト比の変更::
標準的な正方形のアスペクトだけでなく、縦や横などの非標準的なアスペクト比の画像を生成する機能があります。ゼロショットでの画像変換:
画像の修正は、(1)オリジナル画像を64ピクセルにリサイズ、(2)forward diffusion を通してノイズを追加、(3)新しいプロンプトで backward diffusionを使用して画像をノイズ除去する(インペインティングモードでは、この処理は画像のローカルゾーンで起こる)ことにより行われます。超解像モジュールでは、プロンプトのテキスト記述により、スタイルをさらに変更することができます。このアプローチでは、ソース画像の基本的な形を維持しながら、出力のスタイル、パターン、ディテールを変更することができ、微調整を必要としません。
より詳しい解説はこちらから
データセットについて
DeepFloyd IFは、1B(画像、テキスト)ペアを含むカスタム高品質LAION-Aデータセットで学習されました。LAION-Aは、LAION-5Bデータセットの英語部分の審美的なサブセットであり、類似ハッシュに基づく重複排除、余分なクリーニング、および元のデータセットに対するその他の修正を経て得られたものです。DeepFloydのカスタムフィルタを使用して、透かし、NSFW、その他の不適切なコンテンツは除去されています。
ライセンスについて
DeepFloyd IFは、最初は研究用ライセンスでリリースされています。
他のStability AI モデルと同様に、Stability AI は、将来的に DeepFloyd IF モデルを完全にオープンソースでリリースする予定とのことです。
リンクまとめ
ウェイトへのアクセスは、Deep FloydのHugging Faceスペースにて、モデルのカードに記載されたライセンスを受諾することで可能となります。
ウェイトへのアクセスはこちらから
モデルカードとコードはこちらから
Stability AIが大規模言語モデルを取り入れた高性能なテキストから画像への変換モデル「DeepFloyd IF」を発表
コメント