動画と画像生成の両面で強化された最新AIモデル Wan 2.6 シリーズが公開!参照動画からの生成に対応

CGソフト

2025年12月16日(現地時間)‐Alibaba Cloud は、動画生成と画像生成の両面で強化された 最新の生成AIモデル Wan2.6 を公開しました。

Wan2.6 シリーズが公開

Wan2.6 シリーズは動画生成と画像生成の両面で進化を遂げました。

動画生成では、従来のテキストや画像からの生成に加え、新たに参照動画(Reference to Video)からの生成に対応。人物やオブジェクトをキャラクターとして登場させ、外見だけでなく声の参照も可能になりました。さらに、マルチショット機能により、シンプルなプロンプトから自動的にストーリーボード化された複数ショットの映像を生成でき、物語性のある表現が可能です。音声と映像の同期も改善され、複数話者の対話や歌の生成にも対応しています。

画像生成においても、一貫性・制御性・表現力が大幅に向上し、商用利用に耐えうる美的スタイルの転写や、フレーミングの精密な制御が可能になっています。

Wan2.6 – A native multimodal model that turns your ideas into breathtaking videos and images

Wan 2.6 Series ラインナップ

  • wan2.6-t2v – Text to Video
  • wan2.6-i2v – Image to Video
  • wan2.6-r2v – Reference to Video
  • wan2.6-t2i – Text to Image
  • wan2.6-image – Image Edit

主な特徴

主演・キャラクター制御

参照動画からの動画生成が可能となり、リファレンス動画のキャラクターを新しいシーンにキャスト(出演)させることができるようになりました。

人物だけでなく、人型キャラクターにも対応し、外見と声の両方の一貫性を維持したまま、複数人でのインタラクションやオブジェクトとのやり取りを生成することができます。

@V.ACE drinks milk tea while doing some improvised dance moves to the music.

マルチショット・ストーリーテリング

シンプルなプロンプトを入力するだけで、AIが自動的にショット構成を計画し、視覚的な一貫性を保ったマルチショット動画を生成します。これにより、単一のワンカット映像にとどまらず、物語性を持った表現が可能になります。

さらに「Natural audio–visual sync」機能が統合され、複数話者の対話や歌の生成にも対応。映像と音声が自然に調和し、最大15秒・1080Pの動画を生成できます。これにより、短い映像でもストーリーテリングをより豊かに表現できます。

A massive, derelict interstellar freighter floats silently in the dusty rings of Saturn. On its dark, flickering bridge, a single red button blinks beside a cryptic warning: “Unknown life signal…”. The style is suspenseful sci-fi horror, characterized by immense scale, deep shadows, and an atmosphere of isolated dread. The final shot pulls back, dwarfing the ominous vessel against the vast, silent void of space.

画像生成

テキストで指示を与えると、AIがリアルな質感や光の当たり方まで細かく再現した写真のような画像を作り出します。芸術的なスタイルも自由に調整できるので、ポートレートからポスターやチャートのようなグラフィックデザインまで幅広く対応できます。

4-panel illustration: character creation process — 1) Line art, 2) Base colors, 3) Shadows added, 4) Final refined render.

In an artistic overhead food photograph, a white porcelain plate with vibrant peaches, apricots, and plums is centered on soft white linen. Beside it, blooming purple lavender casts delicate shadows from gentle, natural light. The style is defined by warm, soft pastel tones and a realistic retro film grain. This cozy composition, set against a minimal black background, highlights plush textures and evokes a lazy, beautiful daily moment.

First-person POV, extreme low-angle close-up (chest up), background pure ceiling. Film-grain texture, hyper-realistic, translucent clarity. A ~17-year-old girl with messy short hair, fair skin, propping chin with hands. Unretouched, visible film grain. Loose light-blue vertical-stripe shirt, shoulders exposed, sleeves slipped to elbows, hands on sofa. Hair perpendicular to camera. Authentic, intimate snapshot.

マルチイメージ制御

複数の画像を参照しながら、新しい画像を作ったり編集したりすることが可能です。スタジオ品質の精度で細かい調整が可能なので、商業利用にも耐えられる一貫した仕上がりを実現できます。

また、複数画像のスタイルや雰囲気を忠実に引き継ぐことができるため、デザインやビジュアル制作で「統一感」を保ちやすくなります。さらに、テキストと画像を組み合わせて生成することもでき、AIの知識や推論を活かして、段階的に整理されたストーリー性のあるビジュアルを作り出すことが可能です。

Artistically recolor the dress from Figure 1 using the color palette of the bird in Figure 2. Keep the style of the dress and the model unchanged.

The baby is taking a photo in the scene shown in picture 2. The baby is wearing a tiger headgear and a matching knitted sweater.

Take a portrait photo of this boy and his dog. The boy is hugging the dog, and both of them look very happy. The studio lighting is soft, and the background is blue with textures.

利用について

Wan 2.6は現在、以下のプラットフォームで体験およびAPIの利用が可能です。

Alibaba Cloud Model Studioでは、以下のモデルの使用が公開されています。

Wan2.6-T2V (Text-to-video)

テキスト記述から動画シーケンスを作成します。滑らかな動きの生成とシネマティックな美学制御を実現し、フレームレベルの芸術的指示に対する正確な遵守を特徴とします。 インテリジェントなショットスケジューリングにより、被写体、シーン、雰囲気が一貫したマルチショットの物語動画を生成可能です。

詳細ページへ

Wan2.6-I2V (Image-to-video)

画像から動画コンテンツを生成します。被写体、スタイル、テキスト要素などの詳細を安定して保持し、動的な遷移においても視覚的な一貫性と情報の忠実度を保証します。 また、自然でリアルな声色による安定した複数話者の対話や、マルチカメラのストーリーテリングもサポートしています。

詳細ページへ

Wan2.6-R2V (Reference-to-video)

参照動画から人物やオブジェクトの外見や声を正確に保持し、新しい動画を生成します。複数参照を組み合わせた共同制作(コ・クリエーション)にも対応しており、キャラクターの一貫性を維持したまま新しいシーンを作成するのに最適です。

詳細ページへ

Wan2.6-T2I (Text-to-Image)

テキストプロンプトから高精細な画像を生成します。フォトリアルな質感や正確なテキスト描画を提供し、意味的な整合性を保ちながら、柔軟なスタイル適応をサポートします。

詳細ページへ

Wan2.6-Image Edit

自然言語コマンドで画像コンテンツを修正・編集します。部分的な変更、スタイル変換、オブジェクトの置換に対応し、編集操作中も幾何学的・文脈的な一貫性を維持します。商用レベルの一貫性と忠実なスタイル転送を実現するマルチ画像リファレンスもサポートしています。

詳細ページへ


Introducing Wan 2.6

コメント

Translate »
タイトルとURLをコピーしました