Stability AI、新しいテキスト画像変換モデル「Stable Cascade」を発表

ニュース

2024年2月13日(現地時間)- Stability AIは、新しいテキスト画像変換モデル「Stable Cascade」の研究プレビューを公開しました。

Stable Cascadeとは

新しいテキスト画像変換モデル「Stable Cascade」は、3段階のアプローチが採用されており、品質、柔軟性、微調整、効率性の新たなベンチマークを設定し、ハードウェアの障壁をさらに排除することに焦点が当てられています。これにより、一般消費者向けハードウェアでのトレーニングと微調整が簡単にできるようになっています。

また、この新しいアーキテクチャを試すことができるように、チェックポイントと推論スクリプトを提供するだけでなく、微調整、ControlNet、LoRAトレーニング用のスクリプトが公開されています。

技術的な詳細

Stable CascadeはStable Diffusionとは異なり、3つの異なるモデルからなるパイプライン上に構築されています。 このアーキテクチャにより、画像の階層的な圧縮が可能になり、高度に圧縮された潜在空間を利用しながら、優れた結果を得ることが可能となっているとのことです。

Latent Generator (ステージC)は、ユーザー入力を24×24のコンパクトな潜在空間に変換し、画像の圧縮に使用される Latent Decoder (ステージAおよびB)に渡します。これは、Stable DiffusionにおけるVAEの役割に似ていますが、はるかに高い圧縮率を実現しています。テキスト条件生成(ステージC)を高解像度ピクセル空間(ステージA&B)へのデコードから切り離すことで、ControlNets や LoRA を含む追加学習や微調整をステージCだけで完結させることができます。ステージAとステージBは、Stable Diffusion モデルの VAE のように追加制御のための微調整が可能ですが、単にステージCをトレーニングし、ステージAとBを元の状態で使用することが推奨されています。

ステージCとBは、2つの異なるモデルでリリースされます:ステージCは1B&3.6Bパラメータ、ステージBは700M&1.5Bパラメータです。しかし、ハードウェアの必要性を最小限に抑えたい場合は、1Bパラメーターを使用することもできます。ステージBでは、どちらも素晴らしい結果が得られますが、15億の方が細かいディテールの再構築に優れています。

以上のようなStable Cascadeのモジュラーアプローチのおかげで、推論に必要な予想VRAM容量は約20gbに抑えることができます。より小さなバリアントを使用することでさらに下げることも可能です(最終的な出力品質も低下させる可能性があります)。

Stability AIの評価では、Stable Cascade がプロンプトのアライメントと美的品質の両方において、ほぼすべてのモデル比較で最も優れていることがわかっているとのことです。

Stable Cascade(推論ステップ数30)とPlayground v2(推論ステップ数50)、SDXL(推論ステップ数50)、SDXL Turbo(推論ステップ数1)、Würstchen v2(推論ステップ数30)の比較

追加機能

Stable Cascade は、標準的なテキストから画像への生成に加え、画像バリエーションや画像から画像へ(Image-to-image)の生成を行うことができます。

■画像バリエーション

画像バリエーションは、CLIP を使用して与えられた画像から画像埋め込みを抽出し、これをモデルに戻すことで機能します。以下に出力例をで左の画像がオリジナルで、その右の4つは生成されたバリエーションです。

■画像から画像へ

Image-to-imageは、与えられた画像にノイズを加え、これを生成の出発点として使用することで動作します。以下は左の画像にノイズを加え、そこから生成を行う例です。

トレーニング、微調整、ControlNet、LoRAのコード

Stability AIは、Stable Cascade のリリースに伴い、トレーニング、ファインチューニング、ControlNet、LoRA のすべてのコードを公開する予定です。以下は、モデルとともにリリースされる予定のControlNetの一部です。

インペインティング/アウトペインティング: テキストプロンプトに付随するマスクと対になった画像を入力します。このモデルは、提供されたテキストプロンプトに従って、画像のマスクされた部分を塗りつぶします。キャニーエッジ:モデルに入力された既存の画像のエッジをたどって新しい画像を生成します。このテストでは、スケッチを元に展開することもできます。

2倍超解像: ステージCで生成された潜在空間にも使用できます。

モデルへのアクセス

このモデルは、非商用利用のみを許可する非商用ライセンスの下でリリースされます。

これらの詳細は、学習と推論コードを含むStability AI の GitHubページへ


Stable Cascade のご紹介

コメント

Translate »
タイトルとURLをコピーしました