2023年11月16日(現地時間) – Meta は、最新の生成AI研究のマイルストーンとして『Emu Video』と『Emu Edit』を発表しました。
今年のMeta Connectでは、Emuという最初の画像生成の基礎モデルを含むいくつかの新しい展開が発表されました。Emuのテクノロジーは、Instagramの一部のAI画像編集ツールや、写真の視覚的スタイルや背景を変更するものを含む、Meta AI内で直接メッセージやファミリーアプリのグループチャットで写真を生成できるImagine機能など、Metaの生成AI体験の多くの要素を支えています。
そしてこの度Metaは、テキストの指示だけに制御された画像編集の新しい研究と、拡散モデルに基づくテキストからビデオへの変換モデルの研究を発表しました。
Emu Video:高品質なビデオ生成のためのシンプルな分解方法
Emu Videoは、Emuモデルを活用したもので、拡散モデルに基づくテキストからビデオ生成のシンプルな方法を提供します。これは、さまざまな入力に対応できるビデオ生成タスクの統合アーキテクチャで、テキストのみ、画像のみ、およびテキストと画像の両方に対応しています。
プロセスを2つのステップに分解されています。
- まず、テキストプロンプトに応じた画像の生成
- 次に、テキストと生成された画像の両方に基づいたビデオの生成です。
ビデオ生成に対するこの「因数分解(factorized)」または分割アプローチにより、ビデオ生成モデルを効率的にトレーニングできます。
本研究では、因数分解されたビデオ生成が単一の拡散モデルによって実装可能であることを示し、動画拡散のためのノイズスケジュールの調整や、より高解像度の動画を直接生成することを可能にするマルチステージ学習など、重要な設計上の決定を示しています。
モデルの深いカスケード( Make-A-Videoでは5つのモデル)を必要とする先行研究とは異なり、最新のアプローチは実装が簡単で、わずか2つの拡散モデルを使用して、512×512の4秒間の動画を1秒あたり16フレームで生成します。実際、このモデルは、96%の回答者から品質面で、また85%の回答者からテキストプロンプトへの忠実さで、Make-A-Videoよりも好まれています。
同じモデルは、テキストプロンプトに基づいてユーザが提供した画像を「アニメーション化」することができ、先行研究を大幅に上回る最先端のパフォーマンスを達成しました。
こちらのデモで試してみることができます。
Emu Edit:認識と生成タスクによる正確な画像編集
生成AIでは、あるプロンプトを試してみて、生成された画像が思い描いたものとはまったく違うことがよくあります。より望ましい結果になるまでプロンプトを微調整し続けることになるので、それが、プロンプト・エンジニアリングが流行した理由です。近年の指示可能な画像生成モデルの進歩は目覚しいものがありますが、正確なコントロールを提供するにはまだ限界があります。Emu Editは、さまざまな画像操作作業を効率化し、画像編集の機能と精度を向上させることを目的としたアプローチとなっています。
Emu Editは、ローカルおよびグローバル編集、背景の削除と追加、色とジオメトリの変換、検出とセグメンテーションなどのタスクを含む、命令による自由形式の編集が可能です。このモデルは、「信じられる(believable)」画像を作成することだけを第一の目的とするのではなく、編集要求に関連するピクセルのみを正確に変更することに焦点を当てています。現在の多くの生成AIモデルとは異なり、Emu Editは正確に指示に従い、指示とは無関係な入力画像のピクセルは変更されないようにします。例えば、野球帽に “Aloha!”というテキストを追加する場合、野球帽自体は変更されません。
この研究での重要な考察は、画像生成モデルへの命令としてコンピュータビジョンタスクを組み込むことで、画像生成と編集において前例のない制御が可能になるということです。ローカル編集タスクとグローバル編集タスクの詳細な検証を通じて、Emu Editが詳細な編集命令を実行する大きな可能性を示しています。
モデルを訓練するために、入力画像、実行されるタスクの説明、および目標とする出力画像を含む、それぞれ1000万個の合成サンプルを含むデータセットが開発されました。これは、この種のデータセットとしては、これまでで最大のものだとされています。これにより、このモデルは、命令の忠実さと画質の両方において、これまでにない編集結果を示しまいた。Metaの評価では、Emu Editは既存の手法よりも優れたパフォーマンスを示し、様々な画像編集タスクの質的・量的評価において、最先端の結果を生み出しているとしています。
Introducing Emu Video and Emu Edit, our latest generative AI research milestones
コメント