GPUメモリわずか6GBで1分間30fpの動画生成を可能にする「FramePack」の紹介です。

FramePackとは
利用について

FramePackとは

FramePackは、スタンフォード大学の研究者による論文「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」で提案されている新しいビデオ生成のための次フレーム（またはフレームセクション）予測モデルを訓練するための革新的なニューラルネットワーク構造です。

この技術の核心は、入力された複数のフレームを効率的に圧縮し、ビデオの長さに左右されない固定長のTransformerコンテキストを実現することにあります。

これにより、画像拡散モデルと同程度の計算負荷で、ビデオ拡散を用いて大量のフレームを処理することが可能になります。さらに、トレーニング時のビデオバッチサイズを大幅に向上させ、画像拡散モデルのトレーニングに匹敵するサイズでの学習を実現します。

主な特長

13Bモデルを使用し、6GBのラップトップGPUメモリで、フルfps-30の数千のフレームを拡散処理。
個人/研究室の実験用に、単一の8xA100/H100ノード上でバッチサイズ64の13Bビデオモデルをファインチューン。
パーソナルRTX 4090は、速度2.5秒/フレーム（最適化されていない場合）または1.5秒/フレーム（teacache）で生成。
タイムステップ蒸留なし。
ビデオ拡散ですが、画像拡散のように感じられます。

✅GPUメモリレイアウトによる効率的なフレーム処理

FramePackの重要な特徴の一つが、入力フレームを特定のGPUメモリレイアウトにエンコードする手法です。従来のビデオ処理のようにフレーム画像を単純に結合するのではなく、論理的なメモリ配置を利用します。

それぞれのフレームは、異なる「パッチ化カーネル」を用いてエンコードされ、この処理によって各フレームに割り当てるGPUリソースの量、すなわち「コンテキスト長」を調整できます。

例えば、予測対象の次のフレームに時間的に近いフレームほど「重要」とみなし、より多くのGPUリソース（より長いコンテキスト長）を割り当てることで、生成されるビデオの品質を高めることができます。

HunyuanVideoの例では、480pのフレームが（1, 2, 2）のパッチ化カーネルを使用した場合1536トークンであるのに対し、（2, 4, 4）のカーネルでは192トークンに圧縮されます。この柔軟なコンテキスト長の調整により、ストリーミング処理においても一定の計算量（O(1)）で効率的な処理が可能となります。

✅ビデオ品質劣化を防ぐAnti-drifting Sampling

次フレーム予測モデルにおいて課題となるのが、ビデオが長くなるにつれて品質が劣化する「ドリフト」現象です。これは、エラーの蓄積や露出バイアスとも呼ばれ、生成された最後のフレームを次の入力として繰り返し使用するような場合に顕著に現れます。

ドリフトを根本的に解決するには、因果関係を断ち切り、サンプリングを双方向にする必要があることがわかりました。

FramePackでは、このドリフト問題を解決するために「Anti-drifting Sampling」というサンプリング手法を提案しています。

従来の因果的なサンプリング（過去から未来へ順に生成）とは異なり、Anti-drifting Samplingと「Inverted Anti-drifting Sampling」は双方向的なアプローチを採用します。特に「Inverted Anti-drifting Sampling」は、すべての推論において最初のフレームを常に近似のターゲットとして扱うため、Image-to-Videoのようなアプリケーションにおいて非常に有効です。

利用について

「Packing Input Frame Context in Next-Frame Prediction Models for Video Generation」の公式実装およびデスクトップソフトウェアがGithubにて公開されています。

今のところ（投稿日時点）、このGitHubリポジトリは、 FramePackの公式ウェブサイトとして唯一のものです。ウェブサービスは提供されていないので、ウェブサイトはすべてスパムまたは偽物なのでご注意ください。

システム要件：

RTX 30XX、40XX、50XXシリーズのNvidia GPUはfp16とbf16をサポートしています。GTX 10XX/20XXはテストされていません。
Linux または Windows オペレーティングシステム。
少なくとも 6GB の GPU メモリ。

13Bモデルを使用して30fps（1800フレーム）で1分（60秒）の動画を生成するには、GPUメモリは最低6GB必要です。

RTX 4090デスクトップでは、最適化なしの場合2.5秒/フレーム、Teacache使用時では1.5秒/フレームの速度で生成されます。3070tiや3060などのノートパソコンでは、約4倍から8倍遅くなります。

次フレーム（セクション）予測なので、生成されたフレームを直接確認できます。そのため、ビデオ全体が生成される前に、多くの視覚的なフィードバックが得られます。

インストール：

Githubではワンクリックのインストーラーがあるので、簡単に導入可能です。ダウンロード後、解凍し、を使用してupdate.bat更新し、を使用してrun.bat実行します。

これは、Pinokioからもインストールできます。モデルは自動的にダウンロードされることに注意してください。HuggingFaceから30GB以上をダウンロードします。（生成モデルは hunyuan_video が利用されているようです。）

また、ComfyUIのワークフロー（civitai）もすでに公開されているものがあります。

インターフェイスは上記のようになっており、左側では画像をアップロードし、プロンプトを入力。右側には、生成されたビデオと潜在空間のプレビューが表示されます。

以下は生成された動画の例です。

プロジェクトページでは多くの生成例を見ることができます。

FramePack Githubページへ

論文

プロジェクトページ

GPUメモリわずか6GBで1分間の動画生成が可能に！ビデオを段階的に生成する次フレーム予測型のニューラルネットワーク構造「FramePack」

FramePackとは

利用について

コメント

コンピュータビジョンとAIの国際会議「CVPR 2026」

Appleの年次開発者会議「WWDC26」

リアルタイム3D技術をテーマにした産業向けカンファレンス「Unity 産業DXカンファレンス 2026」

Unreal Fest Chicago 2026

SIGGRAPH 2026

国内最大級のゲーム開発者向け技術・知識共有カンファレンス「CEDEC2026」