2022年10月6日(現地時間)- Google Research, Brain Teamの研究者らは、テキストから動画を生成するAIモデル Imagen Video を発表しました。
Imagen Videoとは
Imagen Videoは、Cascaded Diffusion Modelsというモデルを用いて高解像度な動画を生成します。
まず、入力されたテキストプロンプトをT5テキストエンコーダーでテキストエンコーディング、次に、base Video Diffusion Model が24×48の解像度、毎秒3フレームの16フレームビデオを生成します。これに複数の時間的超解像(TSR)と空間的超解像(SSR)モデルがアップサンプリングして、最終的に1280×768の解像度、毎秒24フレームの128フレームビデオを生成します。以下はデモ動画の一部となります。
Imagen Videoは、Video U-Netアーキテクチャを使用して、空間的な忠実度と時間的なダイナミクスをキャプチャします。Temporal self-attention は base Video Diffusion Model で使用され、 temporal convolutions は時間的(temporal )および空間的(spatial)超解像モデルで使用されています。ビデオU-Netアーキテクチャは、Imagen Videoが長期的な時間的ダイナミクスをモデル化することを可能にします。
ソースコードについて
ジェネレーティブモデリングは、特に最近のテキストから画像へのモデルにおいて、飛躍的な進歩を遂げました。Imagen Videoは、テキストからビデオへのAIシステムを進化させる、生成モデリング能力におけるもう一つの前進です。
これらの生成モデルは、人間の創造性を増幅・増強するなど、社会にポジティブな影響を与えるために使用することができますが、例えば、偽の、憎い、露骨な、または有害なコンテンツを生成するために、誤って使用される可能性もあります。
Googleは、社内試験で入力テキストプロンプトフィルタリングや出力ビデオコンテンツフィルタリングを適用するなど、これらの懸念を最小限に抑えるための複数の措置を講じていますが、安全面や倫理面でいくつかの重要な課題が残されているとしています。
Imagen Videoとfrozen T5-XXLテキストエンコーダは、この問題の残るデータでトレーニングされており、内部テストでは、露骨で暴力的なコンテンツの多くはフィルタリングできることが示されていますが、検出とフィルタリングが困難な社会的偏見やステレオタイプはまだ存在しています。Googleは、これらの懸念が軽減されるまで、Imagen Videoのモデルやそのソースコードを公開しないことを決定しました。
コメント