10月22日(現地時間)- Stability AI は、最新の画像生成AIモデル Stable Diffusion 3.5 を発表しました。
Stable Diffusion 3.5 について
6月に、Stable Diffusion 3 シリーズの最初のオープンリリースである Stable Diffusion 3 Medium が公開されましたが、これは、品質やライセンスにおいてコミュニティの期待に十分に応えるものではなく、後に修正が行われました。
そこで、コミュニティからの貴重なフィードバックに耳を傾けた後、早急な修正ではなく、時間をかけてこの最新バージョンを開発したとのことです。
Stable Diffusion 3.5は、ほとんどのユースケースにおいて広くアクセス可能で、最先端かつ無料のツールを提供する、というStability AIのコミットメントを表しており、ファインチューニング、LoRA、最適化、アプリケーション、アートワークなど、パイプライン全体にわたる仕事や成果物の配布と収益化を支援します。
モデルの特長
このオープンリリースには、複数のカスタマイズ可能なバリエーションが含まれており、一般のハードウェアで動作します。リリースされたのは以下の通りです。
- Stable Diffusion 3.5 Large: 80億のパラメータ、優れた品質、迅速な適合性を持つこの基本モデルは、Stable Diffusionファミリーの中で最も強力です。このモデルは、1メガピクセルの解像度でのプロフェッショナルな使用事例に最適です。
- Stable Diffusion 3.5 Large Turbo: Stable Diffusion 3.5 Large の蒸留版であり、わずか4ステップで高品質な画像を生成し、優れた即時適合性を実現します。Stable Diffusion 3.5 Largeよりもはるかに高速です。
- Stable Diffusion 3.5 Medium : 26億のパラメータ、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、カスタマイズのしやすさと画質を両立させ、コンシューマー向けハードウェアで「箱から出してすぐに使える」ように設計されています。0.25~2 メガピクセルの解像度の画像を生成できます。
Stable Diffusion 3.5 バージョンは、以下の分野で優位性を発揮し、テキストプロンプトへの準拠と画質において最高水準のパフォーマンスを維持しながら、市場で最もカスタマイズ可能で利用しやすいイメージモデルのひとつとされています。
・カスタマイズ性: 特定のクリエイティブニーズを満たすために、モデルを簡単にファインチューニングしたりカスタマイズされたワークフローに基づくアプリケーションを構築したりすることができます。
・効率的なパフォーマンス:特にStable Diffusion 3.5 MediumおよびStable Diffusion 3.5 Large Turbo モデルでは標準的な一般消費者向けのハードウェアで高負荷をかけずに実行できるように最適化されています。
Stable Diffusion 3.5 Medium を他のオープンイメージ ベース モデルと一緒に実行するためのハードウェア互換性は以下の通りです。
・緑色のチェックマークは、性能のトレードオフなしにそのデバイス上で動作することを示しています。
・黄色のビックリマークは、そのデバイス上で動作させるには、量子化やシーケンシャルオフロードなど、パフォーマンスを犠牲にする最適化が必要であることを示します。
このモデルは、その完全なパフォーマンスを引き出すために 9.9 GB の VRAM (テキスト エンコーダーを除く) のみを必要とするため、ほとんどのコンシューマー GPU との互換性が高く、アクセスしやすいものとなっています。
・多様な出力:広範な指示を必要とせずに、特定の人物だけでなく、さまざまな肌の色や特徴を持つ世界を代表するような画像を作成します。
・多彩なスタイル:3D、写真、絵画、線画など、幅広いスタイルと美しさを生成することが可能です。また、想像可能なほぼすべての視覚スタイルにも対応しています。
生成AIモデルのパフォーマンスを評価するための指標Eloスコアは次のようになっています。
Stability AI による各モデルの分析は以下の通りです。
- Stable Diffusion 3.5 Large はプロンプト順守において市場をリードし、画像品質でははるかに大きなモデルに匹敵する性能をもっています。
- Stable Diffusion 3.5 Large Turbo は、そのサイズにおいて最速クラスの推論時間を提供しながら、画像の品質やプロンプトの再現性の面でも高い競争力を保っています。これは、同じサイズの非蒸留モデルと比較しても遜色ありません。
- Stable Diffusion 3.5 Medium は、他の中型モデルを上回る性能を持ち、プロンプトの再現性と画像品質のバランスに優れています。効率的で高品質なパフォーマンスを求める場合の最適な選択肢となります。
カスタマイズ性を優先したモデルの開発
モデルの開発にあたっては、柔軟な基盤を構築できるようにカスタマイズ性が優先されています。Query-Key Normalization はトランスフォーマーブロックに統合、モデルのトレーニングプロセスが改善され、さらにファインチューニングや開発が簡素化されました。
これにより、異なるシードを使用した同じプロンプトからの出力に、より大きなばらつきが生じる可能性があります。これは意図的なもので、ベースモデルにおける幅広い知識ベースと多様なスタイルの維持に役立ちます。しかし、その結果、特定性のないプロンプトでは出力の不確実性が増大し、見た目のレベルにばらつきが生じる可能性があります。
特にMediumモデルでは、品質、一貫性、およびマルチ解像度生成能力を向上させるために、アーキテクチャとトレーニングプロトコルにいくつかの調整が加えられています。
利用について
Stable Diffusion 3.5 は、 Stability AI Community License の下で利用可能です。
概要は以下の通りです。
- 非営利目的の場合は無料: 個人および組織は、科学研究を含む非営利目的の場合、無料でモデルを使用することができます。
- 商用利用も無料(年間収益100万ドルまで):年間収益が100万ドル未満のスタートアップ企業、中小企業、クリエイターは、商用目的でも無料でこのモデルを使用できます。
- 成果物の所有権:制限付きライセンスを伴うことなく生成されたメディアの所有権を保持します。
年間収益が100万ドル以上の企業については、エンタープライズライセンスについてこちらから。
Stable Diffusion 3.5 のモデルは、現在 Hugging Face からダウンロードでき、GitHub では推論コードも入手可能です。
以下のプラットフォームからもモデルにアクセスできます。
- Stability AI API
- Replicate
- DeepInfra
- ComfyUI こちらのページから画像ファイルを保存し、ComfyUI にドラッグまたはロードしてワークフローを取得できます。
Stable Diffusion 3.5 Mediumは、10月29日に一般公開予定です。その後まもなく、ControlNetsもリリースされ、幅広いプロフェッショナルな用途に対応する高度なコントロール機能を提供します。
Stable Diffusion 3.5に関するご意見はこちらのフォームへ
コメント