2024年2月22日(現地時間)- Stability AI は、テキストから画像を生成するAIモデル「Stable Diffusion 3」の早期プレビューを発表しました。
Stable Diffusion 3
Stable Diffusion 3は、複数主題のプロンプト、画質、スペリング能力を大幅に改善した、最も高性能なテキスト画像変換モデルです。この一連のモデルは、現在800Mから8Bのパラメーターから構成されています。このアプローチは、Stability AI の基本的価値観に基づき、アクセスを民主化し、クリエイティブなニーズに最適なスケーラビリティとクオリティの多様なオプションをユーザーに提供することを目的としています。
まだ詳細は発表されていませんが、Stable Diffusion 3は、ディフュージョントランスフォーマーアーキテクチャ( diffusion transformer architecture)とフローマッチング( flow matching)を組み合わせたものとなっているとのことです。詳細な技術レポートは近日中に発表される予定です。
■安全性について
Stability AI は、安全で責任あるAIの使用を信条としており、悪質な行為者によるStable Diffusion 3の悪用を防ぐために、合理的な手段を講じてきたし、今後も講じていくとしています。安全性はモデルのトレーニングを開始した時点から始まり、テスト、評価、デプロイメントを通して継続します。この早期プレビューに備え、Stability AI は数々の安全策を導入してきました。このモデルの一般公開に向けて、研究者、専門家、そして私たちのコミュニティと継続的に協力することで、Stability AI は誠実さをもってさらなる革新を遂げることを期待しているとしています。
(NEW)研究論文が公開
2024年3月5日(現地時間) – Stability AI は、モデルリリースの技術的な詳細をまとめた研究論文を発表しました。論文は近日中にarXivで公開される予定です。
発表の要点:
- Stable Diffusion 3を支える基礎技術について掘り下げた研究論文を発表
- Stable Diffusion 3は、DALL-E 3、Midjourney v6、Ideogram v1といった最先端のテキスト画像生成システムよりも、タイポグラフィやプロンプトの忠実性において優れています。
- 新しいマルチモーダル拡散変換器(MMDiT)アーキテクチャは、画像と言語表現に別々の重みセットを使用し、SD3の旧バージョンと比較して、テキスト理解とスペリング機能を向上させています。
研究論文はこちらから
ウェイティングリストへの登録
このモデルはまだ広く利用可能ではありませんが、早期プレビューのためのウェイティングリストが始まりました。このプレビュー段階は、これまでのモデルと同様、一般公開に先駆けて性能と安全性を向上させるための情報を収集するために極めて重要とされています。
Stable Diffusion 3のリリースに先立ち、当社の他の画像モデルの商用利用を検討している場合は、 Stability AI Membershipのページでセルフホストするか、 Developer PlatformでAPIにアクセスしてください。
コメント