2023年11月28日 – Stability AI は、新しいテキスト画像生成モードである『SDXL Turbo』のリリースを発表しました。
SDXL Turbo
『SDXL Turbo』は、敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)と呼ばれる新しい蒸留技術に基づいています。このモデルによって画像出力を1ステップで合成し、高いサンプリング忠実度を維持しながらリアルタイムでテキストから画像への出力を生成することができます。
敵対的拡散蒸留(Adversarial Diffusion Distillation:ADD)の利点
SDXL Turbo では、SDXL 1.0 の基盤の上に、テキストから画像へのモデルのための新しい蒸留技術を実装しています: 敵対的拡散蒸留(Adversarial Diffusion Distillation)。ADD を組み込むことで、SDXL Turbo は GAN(Generative Adversarial Networks)に共通する多くの利点(シングルステップの画像出力など)を得ると同時に、他の蒸留手法でよく見られるアーチファクトやぼやけを抑えることができます。
SDXL Turbo の新しい蒸留技術の詳細については、こちらの研究論文をご覧ください。
他の拡散モデルと比較したパフォーマンス上の利点
SDXL Turbo のリリースまでには、複数の異なるモデル(StyleGAN-T++、OpenMUSE、IF-XL、SDXL、LCM-XL)を同じプロンプトで出力を生成して比較が行われました。人間の評価者はランダムに 2 つの出力を表示され、プロンプトの指示に最も近い出力を選びます。次に、画質についても同じ方法でテストされました。これらのブラインドテストでは、SDXL Turbo は LCM-XL の4ステップ構成に1ステップで勝り、SDXL の50ステップ構成にもわずか4ステップで上回りました。これらの結果から、SDXL Turbo は、画質を犠牲にすることなく、計算量を大幅に削減した最先端のマルチステップモデルを上回っていることがわかります。
さらに、SDXL Turbo では推論速度が大幅に向上しています。A100 の場合、SDXL Turbo は512×512の画像を207ms で生成します(プロンプトエンコーディング+1回のノイズ除去ステップ+デコーディング、fp16)。
利用について
SDXL Turboはまだ商用利用を目的としていないことに留意してください。このモデルを商用利用で使用したい場合は、こちらからお問い合わせください。
モデルのウェイトとコードはHugging Faceからダウンロードできます。現在、個人的な非商用利用を許可する非商用研究ライセンスの下でリリースされています。
また、Stability AIの画像編集プラットフォーム Clipdrop で、リアルタイムのテキストから画像への生成機能のSDXL Turbo ベータデモを試すことができます。ほとんどのブラウザと互換性があり、現在無料です。
コメント