2025年7月28日(現地時間) – アリババグループのTongyi Labが開発した動画生成モデル「Wan2.2」が公開されました。
Wan2.2 とは
Wan2.2は、前バージョンWan2.1をベースに、生成品質とモデル能力を大幅に向上させたアップグレードモデルです。
この進化は、混合エキスパート(MoE)アーキテクチャの導入、トレーニングデータの拡充、そして高圧縮型のビデオ生成技術など、複数の技術によって支えられています。
🎬 Create cinematic-quality videos with the Wan2.2 Series, the world’s first open-source MoE video gen model! Now showcasing richer motion, enhanced lighting, and vibrant colors, driven by foundational upgrades. One click, endless creativity 🪄
— Alibaba Group (@AlibabaGroup) August 1, 2025
Explore on… pic.twitter.com/ugm8JMWWLr
Wan 2.2には、以下の主要な特徴があります
MoEアーキテクチャ
Wan2.2では、映像生成の拡散モデルにMoE(Mixture-of-Experts)アーキテクチャが導入されました。デノイズ処理を時間ステップごとに分割し、専用の高性能エキスパートモデルを用いることで、計算コストを増やさずにモデル全体の容量を拡張しています。
データスケーリング
Wan2.1と比べて、Wan2.2は65.6%多い画像と83.2%多い動画を使って学習されており、その結果、動き・意味・美的感覚といった複数の次元で高い汎化能力を獲得。オープンソース・クローズドソースの全モデルの中でもトップレベルの性能を実現しています。
映画的な美学表現
照明・構図・色彩に関する細かくラベル付けされた美的データを取り入れることで、映像のスタイル生成をより精密に、より自由にコントロール可能なりました。ユーザーが好みの映像美を反映させた動画制作がしやすくなっています。
効率的な高解像度ハイブリッドTI2V
Wan2.2では、高度に設計されたWan2.2-VAEによって圧縮率16×16×4を実現した5Bモデルがオープンソースで公開されています。このモデルは、720P・24fpsの解像度で、テキストから動画・画像から動画の両方に対応可能。さらに、一般向けGPU(例:RTX 4090)でも動作可能であり、産業用途と学術用途の両方をカバーできる高速な生成モデルのひとつです。
オープンソースモデル一覧
❑Wan2.2-T2V-A14B – Text/Image to video, FP16
T2V-A14Bモデルは、480Pと720Pの両解像度で5秒間の動画生成をサポートします。混合エキスパート(MoE)アーキテクチャで構築されており、優れた動画生成品質を実現。新しいベンチマーク「Wan-Bench 2.0」では、主要な評価項目のほとんどで、最先端の商用モデルを上回る性能を示しています。
❑Wan2.2-I2V-A14B – Images to video, FP16/FP8
画像から動画への生成に特化したI2V-A14Bモデルは、480Pと720Pの両解像度に対応。混合エキスパート(MoE)アーキテクチャにより、非現実的なカメラワークを抑制し、より安定した動画合成を可能にします。また、多様なスタイル化されたシーンへの対応も強化されています。
❑Wan2.2-TI2V-5B – Text to video, FP16/FP8
TI2V-5Bモデルは、16×16×4の圧縮率を達成する高度なWan2.2-VAEを基盤としています。このモデルは、720P解像度・24fpsでのテキスト/画像からの動画生成をサポートし、4090のような単一のコンシューマーグレードGPUでも動作可能です。現在利用可能な720P@24fpsモデルの中で最速クラスであり、産業応用と学術研究双方のニーズに応えます。
これらのモデルは、ComfyUIで初日からサポートされており、すでにワークフローテンプレートも利用可能となっています。

Wan2.2の技術概要
MoE(混合エキスパート)アーキテクチャ
MoE(混合エキスパート)という仕組みでは、2種類の専門モデルを使い分けて映像を作っていきます。
ざっくり言うと、映像の粗い部分を作る「高ノイズエキスパート」と、細かい部分を仕上げる「低ノイズエキスパート」があり、処理の段階に応じて切り替えることで、効率よく高品質な映像を生成できるようになっています。それぞれ14Bの規模があり、トータルでは27Bになりますが、実際の処理では一度に使うのは片方だけなので負荷は抑えられています。

どのタイミングでエキスパートを切り替えるかは「SNR(信号とノイズの比率)」という指標で決まります。初期はノイズが多くSNRが低いので「高ノイズ」のモデルを使い、処理が進んでSNRがある程度下がると「低ノイズ」のモデルへと切り替わります。

このMoE構成の効果を確かめるため、いくつかのパターンで精度を比べてみた結果、Wan2.2の最終構成が一番安定していて、元データに近い映像を作れることがわかりました。
高圧縮ハイブリッドTI2Vモデル
効率性を追求するWan2.2では、高圧縮設計も導入されています。27BのMoEモデルとは別に、より軽量な密モデル「TI2V-5B」も公開されました。
れは映像を空間・時間ごとに圧縮できるVAE技術を使っていて、サイズを大幅に削減しながらも画質を保っています。例えば、普通の家庭用GPUでも、5秒の720P映像を約9分で生成できるほど効率が良く、720P@24fpsのビデオ生成モデルとしては業界でもかなり高速なモデルに位置づけられています。
さらに、文字と画像の両方を入力できる機能も備えているので、研究から実用まで幅広いシーンで使いやすくなっています。
SOTAとの比較:Wan-Bench 2.0
独自ベンチマーク「Wan-Bench 2.0」における性能比較では、Wan2.2は複数の重要指標で主要なクローズドソースの商用モデルを上回る成果を示しました。
これにより、同カテゴリの最先端モデルのひとつとしてその地位を確立しています。

























コメント