ComfyUI、音声駆動ビデオ生成モデル「Wan2.2 S2V」をネイティブサポート!

CGソフト

2025年8月29日(現地時間)- 高度な音声駆動ビデオ生成モデルであるWan2.2-S2Vが、ComfyUIでネイティブにサポートされるようになったことが発表されました。

Wan2.2 S2V とは

「Wan2.2 S2V(Speech to Video)」は、一枚の画像と音声クリップから、高品質で表現力豊かなキャラクタービデオを生成できる高度な音声駆動ビデオ生成モデルです。

この技術は、漫画や動物など多様なキャラクターに対応しており、音声を元に、対話、歌、パフォーマンスなど、さまざまなクリエイティブなニーズに対応し、生き生きとした細やかな表情や体の動きを生成することができます。

モデルの主な特長

  • 音声駆動によるビデオ生成: 静止画と音声を同期したビデオに変換。
  • 映画レベルの品質: 自然な表情と動きを持つ映画品質のビデオを生成。
  • 分単位の生成: 長尺のビデオ作成をサポート。
  • マルチフォーマット対応: 全身および半身のキャラクターに対応。
  • 強化されたモーションコントロール: テキスト指示からアクションや環境を生成。

ComfyUI利用手順

ワークフローのダウンロード

ComfyUIのテンプレートを開くか、または以下からワークフローファイルをダウンロードして利用します。

必要なモデルとファイル構造

ワークフローを実行するには、以下のモデルをダウンロードし、指定されたフォルダ構造でComfyUIの `models` ディレクトリ内に配置する必要があります。

ComfyUI/
└── models/
├── diffusion_models/
│ ├── wan2.2_s2v_14B_fp8_scaled.safetensors
│ └── wan2.2_s2v_14B_bf16.safetensors
├── text_encoders/
│ └── umt5_xxl_fp8_e4m3fn_scaled.safetensors
├── audio_encoders/ (※このフォルダがない場合は作成)
│ └── wav2vec2_large_english_fp16.safetensors
└── vae/
└── wan_2.1_vae.safetensors

各モデルのダウンロードリンク:

ワークフローの手順

  1. Diffusion Modelのロードwan2.2_s2v_14B_fp8_scaled.safetensors または wan2.2_s2v_14B_bf16.safetensors をロードします。
    • 提供されているワークフローでは、VRAM消費量が少ない wan2.2_s2v_14B_fp8_scaled.safetensors を使用します。
    • 品質の低下を抑えたい場合は wan2.2_s2v_14B_bf16.safetensors を試すことができます。
  2. CLIPのロードumt5_xxl_fp8_e4m3fn_scaled.safetensors をロードします。
  3. VAEのロードwan_2.1_vae.safetensors をロードします。
  4. AudioEncoderLoaderwav2vec2_large_english_fp16.safetensors をロードします。
  5. LoraLoaderModelOnlywan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors (Lightning LoRA) をロードします。
    • すべてのwan2.2 lightning LoRAをテストしましたが、これはWan2.2 S2V専用に学習されたものではないため、多くのキー値が一致しません。しかし、生成時間を大幅に短縮するため追加されています。このテンプレートは引き続き最適化される予定です。
    • これを使用すると、動きや品質が大幅に損なわれる可能性があります。
    • 出力品質が低すぎると感じた場合は、元の20ステップのワークフローを試してみてください。
  6. LoadAudio: 提供された音声ファイルまたはご自身の音声をアップロードします。
  7. Load Image: 参照画像をアップロードします。
  8. バッチサイズ: 追加する Video S2V Extend サブグラフノードの数に応じて設定します。
    • 各 Video S2V Extend サブグラフは、最終出力に77フレームを追加します。
    • 例えば、2つの Video S2V Extend サブグラフを追加した場合、バッチサイズは3となり、これがサンプリングの総反復回数を意味します。
    • Chunk Length: デフォルト値の77を維持してください。
  9. サンプラー設定: Lightning LoRAを使用するかどうかに基づいて、異なる設定を選択します。
    • 4ステップのLightning LoRAを使用する場合: steps: 4, cfg: 1.0
    • LoRAを使用しない場合: steps: 20, cfg: 6.0
  10. サイズ設定: 出力ビデオの寸法を設定します。
  11. Video S2V Extend: ビデオ拡張サブグラフノードです。サンプリングあたりのデフォルトフレームは77で、これは16fpsのモデルなので、各拡張で 77 / 16 = 4.8125秒のビデオが生成されます。
    • ビデオ拡張サブグラフノードの数を入力音声の長さに合わせるには計算が必要です。例えば、入力音声が14秒の場合、必要な総フレーム数は14×16=224です。各ビデオ拡張は77フレームなので、224/77 ≈ 2.9となり、切り上げて3つの拡張サブグラフノードが必要になります。
  12. 実行: `Ctrl-Enter` を押すか、「Run」ボタンをクリックしてワークフローを実行します。

ComfyUIを常に最新の状態にしてください。このガイドのワークフローは、ComfyUIの「Workflow Templates」から見つけることができます。見つからない場合は、ComfyUIが古い可能性があります。(デスクトップ版の更新は少し遅れることがあります)更新ガイドはこちら

出力例

オーディオエンコーダーのファイル名に english と含まれている通り、wav2vec2_large_english_fp16.safetensors は英語の音声に特化したモデルなので日本語には対応していませんが、日本語でも試してみました。やはり微妙な結果ですが

その他より詳しい情報は公式のドキュメントページへ

関連リンク


Wan2.2 S2V in ComfyUI: Audio-Driven Video Generation from Static Images

コメント

Translate »
タイトルとURLをコピーしました