2024年3月19日 – Stability AI は、新しい生成AIモデル Stable Video 3D(SV3D)のリリースを発表しました。
Stable Video 3Dとは
Stable Video 3D(SV3D)は、Stable Video Diffusion をベースとした生成モデルです。
Stable Video Diffusionの画像から動画への Diffusionモデルにカメラパスのコンディショニングを追加することで、オブジェクトのマルチビュービデオを生成することができます。Stable Video 3D は、Stable Zero123 で使用されている画像拡散モデルとは対照的に、Video Diffusion モデルを使用することで、生成された出力の汎化とビューの一貫性に大きな利点があります。
さらに、Stable Video 3D のこの機能を活用して、オブジェクトの周りの任意の軌道を生成する、改良された3D最適化を提案します。これらのテクニックを、新しいマスクドスコア蒸留サンプリング損失関数(new masked score distillation sampling loss function)と同様に、分離された照明最適化とともに実装することで、Stable Video 3D は、単一の画像入力から高品質の3Dメッシュを確実に出力することができます。
この新しいモデルは、3D技術の分野を発展させ、以前にリリースされた Stable Zero123 と比較して、品質とマルチビューが大幅に改善され、Zero123-XLなどの他のオープンソースの代替製品よりも優れたものとなっているとのことです。
このリリースには次の2つのバリエーションがあります:
- SV3D_u: このバージョンは、カメラのコンディショニングなしで、単一の画像入力に基づいて軌道ビデオを生成します。
- SV3D_p: SVD3_uの機能を拡張したもので、単一画像と軌道ビューの両方に対応し指定されたカメラパスに沿って3Dビデオを作成することができます。
■ノベルビュー生成
Stable Video 3Dは、3D生成、特にノベルビュー合成(NVS)において大きく進歩しています。限定された視点や出力の不一致に悩まされることが多い従来のアプローチとは異なり、Stable Video 3Dは、より詳細で、入力画像に忠実で、マルチビューに一貫性のある新しいマルチビューを生成することができます。この機能は、ポーズ制御性を高めるだけでなく、複数のビューにわたって一貫したオブジェクトの外観を保証し、リアルで正確な3D生成の重要な側面をさらに改善します。
■3D生成
Stable Video 3Dは、3D Neural Radiance Fields (NeRF)とメッシュ表現を最適化するために、マルチビューの一貫性を活用し、新しいビューから直接生成される3Dメッシュの品質を向上させます。これを実現するために、予測されたビューでは見えない領域の3D品質をさらに向上させるために、マスクされたスコア蒸留サンプリング損失が設計されています。さらに、Stable Video 3Dは、ベイクトインライティングの問題を軽減するために、3D形状およびテクスチャとともに、一緒に最適化される分離された照明モデルを採用しています。
Stable Video 3D モデルの詳細と実験的比較については、こちらのテクニカルレポートをご覧ください。
利用について
Stable Video 3Dは、Stability AI メンバーシップに加入することで、商用利用が可能です。
非商用利用の場合は、Hugging Face のモデルウェイトをダウンロードして利用することができます。
コメント