2025年8月29日(現地時間)- 高度な音声駆動ビデオ生成モデルであるWan2.2-S2Vが、ComfyUIでネイティブにサポートされるようになったことが発表されました。
Wan2.2 S2V とは
「Wan2.2 S2V(Speech to Video)」は、一枚の画像と音声クリップから、高品質で表現力豊かなキャラクタービデオを生成できる高度な音声駆動ビデオ生成モデルです。
この技術は、漫画や動物など多様なキャラクターに対応しており、音声を元に、対話、歌、パフォーマンスなど、さまざまなクリエイティブなニーズに対応し、生き生きとした細やかな表情や体の動きを生成することができます。
See Wan2.2-S2V in action! Check out the video to explore stunning demos of Alibaba’s latest speech-to-video model, bringing portraits to life with lifelike animations and expressive performances!🎥 pic.twitter.com/zlaDAkbcae
— Alibaba Group (@AlibabaGroup) August 29, 2025
モデルの主な特長
- 音声駆動によるビデオ生成: 静止画と音声を同期したビデオに変換。
- 映画レベルの品質: 自然な表情と動きを持つ映画品質のビデオを生成。
- 分単位の生成: 長尺のビデオ作成をサポート。
- マルチフォーマット対応: 全身および半身のキャラクターに対応。
- 強化されたモーションコントロール: テキスト指示からアクションや環境を生成。
ComfyUI利用手順
ワークフローのダウンロード
ComfyUIのテンプレートを開くか、または以下からワークフローファイルをダウンロードして利用します。
必要なモデルとファイル構造
ワークフローを実行するには、以下のモデルをダウンロードし、指定されたフォルダ構造でComfyUIの `models` ディレクトリ内に配置する必要があります。
ComfyUI/
└── models/
├── diffusion_models/
│ ├── wan2.2_s2v_14B_fp8_scaled.safetensors
│ └── wan2.2_s2v_14B_bf16.safetensors
├── text_encoders/
│ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
├── audio_encoders/ (※このフォルダがない場合は作成)
│ └── wav2vec2_large_english_fp16.safetensors
└── vae/
└── wan_2.1_vae.safetensors
各モデルのダウンロードリンク:
- diffusion_models
- wan2.2_s2v_14B_fp8_scaled.safetensors (VRAM消費量が少ない)
- wan2.2_s2v_14B_bf16.safetensors (高品質)
- GGUF版
- audio_encoders: wav2vec2_large_english_fp16.safetensors
- vae: wan_2.1_vae.safetensors
- text_encoders: umt5_xxl_fp8_e4m3fn_scaled.safetensors
- Lightning LoRA: wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors
ワークフローの手順

- Diffusion Modelのロード:
wan2.2_s2v_14B_fp8_scaled.safetensorsまたはwan2.2_s2v_14B_bf16.safetensorsをロードします。- 提供されているワークフローでは、VRAM消費量が少ない
wan2.2_s2v_14B_fp8_scaled.safetensorsを使用します。 - 品質の低下を抑えたい場合は
wan2.2_s2v_14B_bf16.safetensorsを試すことができます。
- 提供されているワークフローでは、VRAM消費量が少ない
- CLIPのロード:
umt5_xxl_fp8_e4m3fn_scaled.safetensorsをロードします。 - VAEのロード:
wan_2.1_vae.safetensorsをロードします。 - AudioEncoderLoader:
wav2vec2_large_english_fp16.safetensorsをロードします。 - LoraLoaderModelOnly:
wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors(Lightning LoRA) をロードします。- すべてのwan2.2 lightning LoRAをテストしましたが、これはWan2.2 S2V専用に学習されたものではないため、多くのキー値が一致しません。しかし、生成時間を大幅に短縮するため追加されています。このテンプレートは引き続き最適化される予定です。
- これを使用すると、動きや品質が大幅に損なわれる可能性があります。
- 出力品質が低すぎると感じた場合は、元の20ステップのワークフローを試してみてください。
- LoadAudio: 提供された音声ファイルまたはご自身の音声をアップロードします。
- Load Image: 参照画像をアップロードします。
- バッチサイズ: 追加する
Video S2V Extendサブグラフノードの数に応じて設定します。- 各
Video S2V Extendサブグラフは、最終出力に77フレームを追加します。 - 例えば、2つの
Video S2V Extendサブグラフを追加した場合、バッチサイズは3となり、これがサンプリングの総反復回数を意味します。 - Chunk Length: デフォルト値の77を維持してください。
- 各
- サンプラー設定: Lightning LoRAを使用するかどうかに基づいて、異なる設定を選択します。
- 4ステップのLightning LoRAを使用する場合: steps: 4, cfg: 1.0
- LoRAを使用しない場合: steps: 20, cfg: 6.0
- サイズ設定: 出力ビデオの寸法を設定します。
- Video S2V Extend: ビデオ拡張サブグラフノードです。サンプリングあたりのデフォルトフレームは77で、これは16fpsのモデルなので、各拡張で 77 / 16 = 4.8125秒のビデオが生成されます。
- ビデオ拡張サブグラフノードの数を入力音声の長さに合わせるには計算が必要です。例えば、入力音声が14秒の場合、必要な総フレーム数は14×16=224です。各ビデオ拡張は77フレームなので、224/77 ≈ 2.9となり、切り上げて3つの拡張サブグラフノードが必要になります。
- 実行: `Ctrl-Enter` を押すか、「Run」ボタンをクリックしてワークフローを実行します。
出力例
オーディオエンコーダーのファイル名に english と含まれている通り、wav2vec2_large_english_fp16.safetensors は英語の音声に特化したモデルなので日本語には対応していませんが、日本語でも試してみました。やはり微妙な結果ですが
関連リンク
- Wan2.2 S2V コード: GitHub
- Wan2.2 S2V モデル: Hugging Face
Wan2.2 S2V in ComfyUI: Audio-Driven Video Generation from Static Images


























コメント