OpenAIが、Consistency Models の実装をリリースしました。
Consistency Modelsとは
の概要では次のように説明されています。
「拡散モデルは画像、音声、動画生成において大きな進歩を遂げていますが、反復的な生成プロセスに依存しているため、サンプリング速度が遅くリアルタイムアプリケーションの可能性が制限されています。この制約を克服するために、我々は高品質なサンプル生成を敵対的トレーニングなしで実現する新しい生成モデルのファミリー、Consistency Models を提案します。
これらのモデルは、計算量とサンプル品質のバランスをとりながら、高速な1ステップ生成を実現し、必要に応じて数ステップのサンプリングも可能にします。また、画像修復や着色、超解像などのゼロショットデータ編集も、それらのタスクに特別なトレーニングが不要な状態でサポートします。Consistency Models は、事前トレーニング済みの拡散モデルを簡略化する方法として、または独立した生成モデルとして訓練することができます。
幅広い実験を通じて、1ステップおよび数ステップ生成において既存の拡散モデルの簡略化技術を上回ることを示しました。例えば、CIFAR-10でFID 3.55、ImageNet 64×64で6.20の新たな最先端の成果を達成しました。独立した生成モデルとして訓練された場合、一貫性モデルはCIFAR-10、ImageNet 64×64、LSUN 256×256などの標準的なベンチマークで、1ステップ生成の非敵対的な生成モデルを上回ります。」
実際どの程度スピードアップするのかはわかりませんが、リアルタイムで画像生成ができればかなり快適に画像生成ができるようになります。
ダウンロード
には、ImageNet-64、LSUN Bedroom-256、LSUN Cat-256で大規模実験を行うためにPyTorchを使って実装したConsistency Modelsのコードベースが含まれています。
このリポジトリは、当初MITライセンスでリリースされたopenai/guided-diffusionをベースにしており、修正により、一貫性蒸留(consistency distillation)、一貫性トレーニング(consistency training)、そして論文で取り上げたいくつかのサンプリングと編集アルゴリズムがサポートされるようになったとのことです。
コメント