GPUメモリわずか6GBで1分間30fpの動画生成を可能にする「FramePack」の紹介です。
FramePackとは
FramePackは、スタンフォード大学の研究者による論文「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」で提案されている新しいビデオ生成のための次フレーム(またはフレームセクション)予測モデルを訓練するための革新的なニューラルネットワーク構造です。
この技術の核心は、入力された複数のフレームを効率的に圧縮し、ビデオの長さに左右されない固定長のTransformerコンテキストを実現することにあります。
これにより、画像拡散モデルと同程度の計算負荷で、ビデオ拡散を用いて大量のフレームを処理することが可能になります。さらに、トレーニング時のビデオバッチサイズを大幅に向上させ、画像拡散モデルのトレーニングに匹敵するサイズでの学習を実現します。
主な特長
- 13Bモデルを使用し、6GBのラップトップGPUメモリで、フルfps-30の数千のフレームを拡散処理。
- 個人/研究室の実験用に、単一の8xA100/H100ノード上でバッチサイズ64の13Bビデオモデルをファインチューン。
- パーソナルRTX 4090は、速度2.5秒/フレーム(最適化されていない場合)または1.5秒/フレーム(teacache)で生成。
- タイムステップ蒸留なし。
- ビデオ拡散ですが、画像拡散のように感じられます。
✅GPUメモリレイアウトによる効率的なフレーム処理
FramePackの重要な特徴の一つが、入力フレームを特定のGPUメモリレイアウトにエンコードする手法です。従来のビデオ処理のようにフレーム画像を単純に結合するのではなく、論理的なメモリ配置を利用します。
それぞれのフレームは、異なる「パッチ化カーネル」を用いてエンコードされ、この処理によって各フレームに割り当てるGPUリソースの量、すなわち「コンテキスト長」を調整できます。


例えば、予測対象の次のフレームに時間的に近いフレームほど「重要」とみなし、より多くのGPUリソース(より長いコンテキスト長)を割り当てることで、生成されるビデオの品質を高めることができます。
HunyuanVideoの例では、480pのフレームが(1, 2, 2)のパッチ化カーネルを使用した場合1536トークンであるのに対し、(2, 4, 4)のカーネルでは192トークンに圧縮されます。この柔軟なコンテキスト長の調整により、ストリーミング処理においても一定の計算量(O(1))で効率的な処理が可能となります。
✅ビデオ品質劣化を防ぐAnti-drifting Sampling
次フレーム予測モデルにおいて課題となるのが、ビデオが長くなるにつれて品質が劣化する「ドリフト」現象です。これは、エラーの蓄積や露出バイアスとも呼ばれ、生成された最後のフレームを次の入力として繰り返し使用するような場合に顕著に現れます。
ドリフトを根本的に解決するには、因果関係を断ち切り、サンプリングを双方向にする必要があることがわかりました。
FramePackでは、このドリフト問題を解決するために「Anti-drifting Sampling」というサンプリング手法を提案しています。

従来の因果的なサンプリング(過去から未来へ順に生成)とは異なり、Anti-drifting Samplingと「Inverted Anti-drifting Sampling」は双方向的なアプローチを採用します。特に「Inverted Anti-drifting Sampling」は、すべての推論において最初のフレームを常に近似のターゲットとして扱うため、Image-to-Videoのようなアプリケーションにおいて非常に有効です。
利用について
「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」の公式実装およびデスクトップソフトウェアがGithubにて公開されています。
システム要件:
- RTX 30XX、40XX、50XXシリーズのNvidia GPUはfp16とbf16をサポートしています。GTX 10XX/20XXはテストされていません。
- Linux または Windows オペレーティング システム。
- 少なくとも 6GB の GPU メモリ。
13Bモデルを使用して30fps(1800フレーム)で1分(60秒)の動画を生成するには、GPUメモリは最低6GB必要です。
RTX 4090デスクトップでは、最適化なしの場合2.5秒/フレーム、Teacache使用時では1.5秒/フレームの速度で生成されます。3070tiや3060などのノートパソコンでは、約4倍から8倍遅くなります。
次フレーム(セクション)予測なので、生成されたフレームを直接確認できます。そのため、ビデオ全体が生成される前に、多くの視覚的なフィードバックが得られます。
インストール:
Githubではワンクリックのインストーラーがあるので、簡単に導入可能です。ダウンロード後、解凍し、 を使用してupdate.bat
更新し、 を使用してrun.bat
実行します。
これは、Pinokioからもインストールできます。モデルは自動的にダウンロードされることに注意してください。HuggingFaceから30GB以上をダウンロードします。(生成モデルは hunyuan_video が利用されているようです。)
また、ComfyUIのワークフロー(civitai)もすでに公開されているものがあります。
インターフェイスは上記のようになっており、左側では画像をアップロードし、プロンプトを入力。右側には、生成されたビデオと潜在空間のプレビューが表示されます。
以下は生成された動画の例です。
プロジェクトページでは多くの生成例を見ることができます。
コメント