Stable Diffusion 2.0がリリース、解像度の向上、アップスケーラー、depth2imgなど…

CGソフト

2022年11月24日(現地時間) – Stability AI は、Stable Diffusion 2.0 のリリースを発表しました。

Stable Diffusion V1について

CompVis が開発したオリジナルのStable Diffusion V1は、オープンソースのAIモデルのあり方を変え、世界中で何百もの他のモデルやイノベーションを生み出しました。このソフトウェアは、2ヶ月足らずでGithubの33Kスターを獲得し、10Kスターに早く到達したソフトウェアの1つとなっています。

Stable Diffusion V1のリリースを主導したのは、Björn Ommer教授が率いるLMU MunichのCompVisグループのRobin Rombach氏(Stability AI) と Patrick Esser氏 (Runway ML) のチームでした。彼らは、LAIONとEleuther AIからの多大なサポートを得て、Latent Diffusion Modelsに関する研究室の研究をベースにV1を構築しました。Stable Diffusion V1のリリースについては、以前のブログ記事をご覧ください。

テキストから画像を生成することができる新モデル Stable Diffusion パブリックリリース
2022年8月22日(現地時間)- AIを利用してテキスト入力から画像を生成することができる新しいモデル Stable Diffusion が公開されました。 ...

現在、Robin氏は、Stability AIのKatherine Crowson氏、幅広いチームと共に次世代のメディアモデルを作成するための取り組みをリードしています。

Stable Diffusion 2.0

Stable Diffusion 2.0では、オリジナルのV1リリースと比較して、以下のような多くの改善と機能が提供されています。

解像度が向上

Stable Diffusion 2.0リリースには、LAIONがStability AI社のサポートのもと開発した全く新しいテキストエンコーダー(OpenCLIP)を使用して学習させた堅牢なText to Imageモデルが含まれており、V1以前のリリースと比較して生成画像の品質を大幅に向上させることに成功しています。

このリリースに含まれるテキスト画像生成モデルは、512×512ピクセルと768×768ピクセルの両方のデフォルト解像度で画像を生成することが可能です。

これらのモデルは、Stability AI社のDeepFloydチームが作成したLAION-5BデータセットのAestheticサブセットで学習され、さらにLAIONのNSFWフィルターを用いてアダルトコンテンツが除去されています。

超解像アップスケーラー

Stable Diffusion 2.0には、画像の解像度を4倍に高めるUpscaler Diffusionモデルも含まれています。以下は、低解像度の生成画像(128×128)を高解像度画像(512×512)にアップスケーリングするモデルの例です。

Stable Diffusion 2.0は、テキストから画像への変換モデルと組み合わせることで、2048×2048またはそれ以上の解像度の画像を生成することができます。

深度から画像へ(Depth-to-Image)

新しい depth-guided stable diffusion モデル「depth2img」は、V1の従来のimage-to-image機能を拡張しするもので、入力画像の奥行きを推測し(既存のモデルを使用)、テキストと奥行き情報の両方を用いて新しい画像を生成します。

上記の画像のように、左の入力画像から複数の新しい画像(右)を生成することができます。Depth-to-Imageは、構造を保持した画像間合成や形状条件付き画像合成に利用することが可能で、オリジナルとは全く異なる画像でありながら、その画像の一貫性と奥行きを維持した変換を実現します。

インペインティングモデルのアップデート

新しいStable Diffusion 2.0をベースに微調整された、新しいテキストガイドインペイントモデルも含まれており、画像の一部をインテリジェントかつ素早く交換することができます。

V2.0は、V1.4やV1.5よりも劣る?

Stable Diffusion 2.0では、新しいDepth-to-Imageの追加や、解像度、インペインティングの改善といった機能的な強化がされている一方で、スタイル指定にアーティストや商用コンテンツを使用したプロンプトでの結果が悪くなっているようです。結果としてアーティスティックな画像が生成しづらくなっています。実際、Artstation で人気のWlop氏の名前を使った画像生成では以下のようになりました。

他にもこちらでは、V1.5と2.0の比較画像が確認できます。

フォトリアルな結果は優れている」や「プロンプトによっては優れた結果が得られる」といった報告もありますが、使用する場合は留意した方が良いでしょう。今後のアップデートを待っても良いかもしれません。

モデルへのアクセス

モデルへのアクセスに関する詳細は、GitHubにあるリリースノートをご覧ください: https://github.com/Stability-AI/StableDiffusion

また、DreamStudioオープンベータではStable Diffusion 2.0と更新されたインペインティングモデル、APIがすでに実装されているようです。今後価格の更新を含む、開発者やパートナー向けの情報が発信される予定です。


Stable Diffusion 2.0 Release

コメント

Translate »
タイトルとURLをコピーしました