2023年3月17日 – Stability AI は、先日買収を発表した Clipdrop の新しいツール「Stable Diffusion Reimagine」を発表しました。
Stable Diffusion Reimagineとは
Stable Diffusion Reimagine は、1枚の画像から複数のバリエーションを無制限に生成することができる新しいClipdropツールです。複雑なプロンプトは必要なく、ユーザーは、画像をアップロードすることで、好きなだけバリエーションを作成することができます。
下の例では、左上の画像がツールに入力されたオリジナルファイルで、その他の画像はオリジナル画像からインスピレーションを得た「再構築」された作品となります。
また、Clipdropはアップスケーラーを搭載しており、小さな画像をアップロードすると、少なくとも2倍の詳細度を持つ画像を生成することができます。
こちらのページで実際に試してみることができます。
少し試してみましたが、下記の使用法と制限にもあるようにあまり良い結果が出ないこともあるようです。
使用方法と制限
Stable Diffusion Reimagineは、オリジナルの入力に基づいてイメージを再現しません。Stable Diffusion Reimagineは、オリジナルからインスピレーションを得た新しいイメージを作り出します。
この技術には限界があることが分かっており、素晴らしい結果を導き出すこともあれば、そうでない場合もあります。
不適切なリクエストをブロックするためのフィルターをモデル内に設置していますが、フィルターが偽陰性または偽陽性を起こすことがあります。
また、モデルが異常な結果を出したり、偏った挙動を示したりすることもあります。 Stability AI は、このような偏りを防ぐために、ユーザーからフィードバックをいただき、システムの改善に努めたいとしています。
技術情報
Stable Diffusion Reimagineは、stability.aiが作成した新しいアルゴリズムに基づいています。古典的なテキストから画像へのStable Diffusionモデルは、テキスト入力に条件付けされるように訓練されています。本バージョンでは、オリジナルのテキストエンコーダーをイメージエンコーダーに置き換えています。テキスト入力に基づいて画像を生成するのではなく、画像から画像を生成する。エンコーダーをアルゴリズムに通した後、バリエーションを生み出すためにいくつかのノイズが加えられています。
この手法では、細部や構図が異なる類似した外観の画像を作成することができます。画像間のアルゴリズムとは異なり、ソース画像はまず完全にエンコードされます。つまり、ジェネレーターはオリジナル画像から得たピクセルを1つも使用しません。
Stable Diffusion Reimagineのモデルはまもなくオープンソース化されます。
コメント