eDiff-I について

eDiff-Iは新世代のジェネレーティブAIコンテンツ作成ツールで、テキストからの画像生成、即時のスタイル変換、そしてワードによる直感的なペイント機能を提供します。

diffusion modelでは、ランダムなノイズから徐々に画像を生成するノイズ除去を繰り返しながら、画像合成を行います。下図では、完全なランダムノイズから何段階ものノイズ除去を経て、最終的にパンダが自転車に乗っている画像を生成しています。

従来のdiffusion modelの学習では、1つのモデルでノイズ分布全体をノイズ除去するように学習していましたが、このフレームワークでは、生成過程の異なる区間でのノイズ除去に特化したExpert Denoiserのアンサンブルを学習させることで、生成過程の異なる区間でのノイズ除去を行います。このような Expert Denoiser を用いることで、合成能力を向上させることができます。

比較

オープンソースのテキストから画像への変換手法（Stable diffusion）と（DALL-E2）と比較し、このモデルは、合成品質を向上させことができており、よりプロンプトに忠実な結果を得られることがわかっています。

スタイル変換（Style transfer）

このメソッドは、CLIP画像埋め込みを利用することで、スタイル変換を可能にします。

まず、スタイル参照画像から、スタイル参照ベクトルとして利用可能なCLIP画像埋め込みを抽出します。下図の左側がスタイル参照画像です。中段のパネルは、スタイルコンディショニングを有効にした場合の結果を示しています。右側のパネルは、スタイル・コンディショニングを無効にした場合の結果です。スタイルコンディショニングを使用すると、入力スタイルと入力キャプションの両方に忠実な出力が生成されます。また、スタイルコンディショニングを行わない場合は、自然なスタイルで画像を生成しています。