オープンソースで高性能な動画生成AIモデル『Mochi 1』

ニュース

Genmo によるオープンソースの動画生成AIモデル『Mochi 1』プレビューの紹介です。

Genmo の開発チームには、DDPM(Denoising Diffusion Probabilistic Models)DreamFusionEmu Videoなどのプロジェクトのコアメンバーが含まれており、この最新の動画生成AIモデル『Mochi 1』は、OpenAIの初期チームにいた技術者など一流の技術専門家のアドバイスを受けて開発されているとのことです。

オープンソースの動画生成モデル「Mochi 1」

「Mochi 1」は、動きの質の大幅な向上と、非常に強力なプロンプトの忠実性を特徴としたオープンソースの動画生成AIモデルです。

Genmo は、動画生成におけるオープンな研究エコシステムが存在することは非常に重要で、オープンソースモデルが進歩を促進し、最先端のAI機能へのアクセスを民主化すると信じているとしており、Mochi 1をApache 2.0ライセンスでリリースしています。

今日、映像生成モデルと現実との間には大きな隔たりがあり、モーションの品質とプロンプトの遵守は、映像生成モデルにまだ欠けている最も重要な能力の2つです。

Mochi 1は、オープンソースの映像生成において、クラス最高の新しい基準を打ち立てました。また、主要なクローズドモデルとも非常に競争力のあるパフォーマンスを発揮します。現在リリースされている 480p のプレビューでは、次のような特徴があります:

プロンプトの遵守(Prompt Adherence): 生成された動画が与えられた指示を正確に反映するよう、テキストによるプロンプトに対して卓越した整合性を示します。これにより、ユーザーはキャラクター、設定、アクションを詳細に制御できます。我々は、OpenAI DALL-E 3のプロトコルに従って、ビジョン言語モデルを判定に使用する自動化されたメトリックでプロンプトの順守をベンチマークしました。

Prompt Adherence:生成された動画が提供されたテキストの指示にどれだけ正確に従うか、ユーザーの意図にどれだけ忠実であるかを測定します。

動きの質(Motion Quality): Mochi 1は、高い時間的一貫性とリアルなモーションダイナミクスを持つ、最大5.4秒間の滑らかな動画を毎秒30フレームで生成できます。Mochiは流体力学のような物理学、毛皮や髪のシミュレーションをシミュレートすることができ、不気味の谷を越え始めている一貫性のある流動的な人間のアクションを表現します。評価者は、フレームレベルの美しさよりも動きに注目するよう指示された(基準には、動きの面白さ(interestingness of the motion)、物理的妥当性(physical plausibility)、流動性(fluidity)が含まれています)。

Elo Score:生成された動画が流動的で視覚的に魅力的であることを保証するために、動きの滑らかさと空間のリアリズムの両方を評価します。

また、ArtificialAnalysis ビデオ生成アリーナにおいて、オープンソースでトップのビデオ生成モデルとなっています。

制限事項

研究プレビューにおいて、Mochi 1は生きて進化するチェックポイントであるとされており、いくつかの既知の制限があります。

  • 初期リリースでは480pのビデオを生成できます。
  • 極端な動きのあるエッジケースでは、小さなゆがみや歪みも発生する可能性があります。
  • Mochi 1 はフォトリアリスティックなスタイルに最適化されているため、アニメーションのコンテンツには適していません。コミュニティが様々な美的嗜好に合わせてモデルを微調整してくれることも期待しているとのことです。
  • さらに、すべての動画生成が安全で倫理的なガイドラインに沿ったものであることを保証するために、プレイグラウンドには強固な安全モデレーションプロトコルが導入されています。

モデル アーキテクチャについて

モデルアーキテクチャの詳細は以下の通りです。

Mochi 1は、オープンソースの動画生成における大きな進歩を象徴するもので、私たちの斬新な非対称拡散変換器(AsymmDiT)アーキテクチャで構築された100億パラメータの拡散モデルを特徴としています。完全にゼロからトレーニングされたこのモデルは、これまでに公開されたビデオ生成モデルの中で最大規模です。そして何よりも、シンプルでハック可能なアーキテクチャです。

続きを読む

Mochi 1は、オープンソースのビデオ生成における大きな進歩を示しており、10億パラメーターの拡散モデルを特徴としています。このモデルは、新しいAsymmetric Diffusion Transformer (AsymmDiT) アーキテクチャ上に構築されています。完全にゼロからトレーニングされており、これまでに公開された中で最大のビデオ生成モデルです。そして何よりも、そのシンプルでハック可能なアーキテクチャが特徴です。

効率性は、コミュニティがモデルを実行できるようにするために重要です。Mochiと共に、私たちはビデオVAEもオープンソース化しています。このVAEは、ビデオを128分の1のサイズに圧縮し、8×8の空間圧縮と6xの時間圧縮により、12チャンネルの潜在空間に変換します。

AsymmDiTは、テキスト処理を合理化し、視覚的推論にニューラルネットワークの能力を集中させることで、ユーザーのプロンプトと圧縮ビデオトークンを効率的に処理します。AsymmDiTは、マルチモーダルの自己注意機構を使用してテキストと視覚トークンに共同で対応し、それぞれのモダリティに対して別々のMLPレイヤーを学習します。これにより、視覚ストリームはテキストストリームに比べてほぼ4倍のパラメーターを持ちます。また、自己注意においてモダリティを統一するために、非正方形のQKVおよび出力投影レイヤーを使用します。この非対称設計は、推論メモリの要件を削減します。

多くの現代の拡散モデルは、ユーザープロンプトを表現するために複数の事前トレーニングされた言語モデルを使用します。対照的に、Mochi 1は単一のT5-XXL言語モデルでプロンプトをエンコードします。

Mochi 1は、44,520のビデオトークンのコンテキストウィンドウを共同で推論し、完全な3D注意を持ちます。各トークンをローカライズするために、学習可能な回転位置埋め込み(RoPE)を3次元に拡張しました。ネットワークは、空間および時間軸の周波数のミキシングをエンドツーエンドで学習します。

Mochiは、言語モデルのスケーリングにおける最新の改善の恩恵を受けています。これには、SwiGLUフィードフォワード層、安定性を向上させるためのクエリーキー正規化、内部アクティベーションを制御するためのサンドイッチ正規化が含まれます。

ビデオ生成の進歩を促進するため、技術的な詳細を記載した技術論文が後日公開される予定です。

今後について

リリースされているMochi 1のプレビュー版では、エンドユーザーのデバイスでの計算効率を考慮し、480pの解像度に制限が設けられています。将来的には、高解像度で長時間のビデオ生成や画像からビデオへの合成をサポートすることが計画されています。

差し当たっては年内に、Mochi 1 HDを含むMochi 1のフルバージョンがリリースされる予定です。Mochi 1 HDは、複雑なシーンでのゆがみなどのエッジケースに対応し、より忠実で滑らかな動きで720pのビデオ生成をサポートします。

また、このリリースの先を見据えて、画像からビデオへの機能向上に取り組んでいるとのことです。さらに、モデルの制御性と操縦性を向上させ、ユーザーが出力をさらに正確にコントロールできるようにすることにも注力していくとのことです。

利用について

Mochi 1は、Apache 2.0ライセンスのもと、個人・商用を問わず自由に利用できます。

Mochi 1のウェイトとアーキテクチャはHuggingFaceで公開されています。

githubでは、ソー コードにアクセスすることができます。

現在、480pのベースモデルがリリースされています。Mochi 1 HD は今年後半にリリースされる予定です。

モデルリリースに加え、ホスティングされたプレイグラウンドも公開されました。genmo.ai/playで、Mochi 1を無料で試すことができます。


Mochi 1: A new SOTA in open-source video generation models

コメント

Translate »
タイトルとURLをコピーしました