6月22日(現地時間)- Stability AI は、SDXL 0.9を発表しました。
SDXL 0.9 が発表
SDXL 0.9は、Stable Diffusionのテキストから画像への変換モデルの中で最も最先端のもので、4月にリリースされたStable Diffusion XLベータ版に続き、SDXL 0.9では画像と構図のディテールが大幅に改善されています。
最新のコンシューマ向けGPUで実行することが可能であるにもかかわらず、生成AI画像のクリエイティブなユースケースを飛躍的に向上させることに成功しています。
Stability AIは、「SDXL 0.9は映画、テレビ、音楽、教育ビデオ用の超リアルな作品を生成する機能だけでなく、デザインや産業用途の進歩も提供することで、SDXLはAIイメージの実世界アプリケーションの最前線に位置している」と述べています。
以下は、SDXLベータ版(左)と0.9の両方でテストされたプロンプトの例となります。
SDXL 0.9の詳細
SDXL 0.9のコンポジションが向上した主な要因は、ベータバージョンと比較して、パラメータ数(モデルがトレーニングされたニューラルネットワークのすべての重みとバイアスの合計)が大幅に増加したことにあります。
3.5Bパラメータのベースモデルと6.6Bパラメータのモデルアンサンブルパイプライン(最終的な出力は、2つのモデルで実行し、結果を集約することで作成される)を特徴とし、オープンソースの画像モデルの中でも最大級のパラメータ数をもっています。パイプラインの第2ステージのモデルは、第1ステージの生成された出力により細かいディテールを追加するために使用されます。
SDXL 0.9は、これまで使用していた最大級のCLIPモデルの一つCLIP ViT-g/14を含む2つのCLIPモデルを用いることで、処理能力に加え、より奥行きのある・1024×1024の高解像度のリアルな画像を生成することが可能になっております。
このモデルの仕様とテストについてのより詳細な研究ブログがSDXLチームによってまもなく公開される予定のようです。
動作環境について
SDXL 0.9は、その強力な出力と高度なモデルアーキテクチャにもかかわらず、Windows 10または11、またはLinuxオペレーティングシステム、16GB RAM、最低8GBのVRAMを搭載したNvidia GeForce RTX 20グラフィックカード(同等またはそれ以上の規格)で実行できます。Linuxユーザーは、16GBのVRAMを搭載した互換性のあるAMDカードを使用することもできます。
モデルへのアクセスについて
SDXL 0.9は Clipdrop by Stability AI プラットフォームで利用可能です。
Stability AI API および DreamStudioのユーザーは、NightCafeなどの他の主要な画像生成ツールと同様に、6月26日(現地時間)からこのモデルにアクセスできます。
SDXL0.9は非商用、研究専用ライセンスでリリースされており、一般に公開される前にフィードバックを収集し、モデルを完全に改良するために、限られた期間中に研究目的でのみ提供されます。SDXLを実行するコードはgithubで公開されます。
これらのモデルへのアクセスを希望される研究者の方は、次のリンクから申し込むことができます。: SDXL-0.9-Base model、SDXL-0.9-Refiner(HuggingFaceアカウントにログインしてください。現在、SDXL 0.9は研究目的にのみ使用されています。)
今後の予定
SDXL 1.0が7月中旬にリリースされる予定です。
コメント