Spline、画像から3Dシーン全体を生成することができる3D生成AIモデル「Spell」を発表

CGソフト

2025年1月22日(現地時間)- ウェブベースの3Dデザインプラットフォームや3D生成AIモデルを開発で知られる Spline は、3Dワールドを生成することができる新しい生成AIモデル「Spell」を発表しました。

3Dワールドを生成することができる生成AIモデル「Spell」

Spellは、画像から3Dシーン全体、つまり「世界」をわずか数分で生成することができる Spline による新しい生成AIモデルです。

これは、最初の画像入力と一致した3Dシーンをガウススプラッティング(またはNeRFのような他の方法)を使ってレンダリングできるボリュームとして表現することで実現されています。

Spellは拡散(Diffusion)モデルの一種で、人物、物体、環境、3Dキャラクターなど、幅広いカテゴリーにわたって、リアルなマルチビューの一貫性を持つ3D世界を生成することができます。

このモデルは、3Dシーンとの一貫性を保ちながら、特定の被写体の複数の角度からの画像を高い精度とディテールでレンダリングし、制御されたカメラパスを生成することができます。

また、反射、屈折、表面の粗さのような物理的なマテリアル特性や、被写界深度のようなカメラ特性、さらにはサーフェス内部に入り込もうとする際のカメラとオブジェクトの交差を視覚的にシミュレートすることも可能です。

Spellは物理的な一貫性を優先し、ビジュアルフローを維持するために補間/モーフィングを行うのではなく、カメラとオブジェクトの交差をシミュレートすることで、現実的な状態を維持することを目指しています。たとえば、カメラが壁の内側に入った場合、壁を別のものに変換するのではなく、壁との実際の交差をシミュレートします。

トレーニングについて

Spellは、主にリアルデータ(実生活からキャプチャされたもの)と、合成データ(デジタルレンダリングされた3Dデータ)の組み合わせでトレーニングされました。Splineユーザーのデータはトレーニングに使用されていません。

  • リアルデータについては、世界各国で長期間にわたって実世界のデータを手作業でキャプチャし、独自の広範なデータセットを構築。
  • 合成データについては、複数の手法を用いて3Dオブジェクトをレンダリングしたものが使用されています。独自のレンダリングパイプラインを開発し、Splineのリアルタイムエディタを構築する際に開発した内部ツールを活用したケースや信頼できる3Dマーケットプレイスから3Dモデルのライセンスを取得し、MLトレーニングでの使用が承認されていることを確認したものも含まれているとのことです。

最終的な出力

現時点では、Spellの最終出力またはエクスポートは、ビデオ、画像のシーケンス、またはボリューム(ガウススプラット)のいずれかになります。

ただし、Spellは特定のボリュームレンダリング手法に依存しておらず、任意の再構成手法を使用して(または再構成モデルを使用して)内部ボリューム表現をメッシュに変換することも可能とのことです。

今後の予定

Splineは、出力のきめ細かな制御とインタラクティブ性を備えた、AIによって駆動されるグラフィックスの新時代に向けた大きな飛躍としています。

この度公開されたのは、モデルの最初のバージョンであり、年間を通じて品質と一貫性の両方を向上させていくことが計画されています。

Spellのトレーニングは継続中で、より新しいモデルのチェックポイントが頻繁にリリース予定です。

利用について

Spellは現在、アーリーアダプター向けということで、アクセスは制限され、価格も意図的に高く設定されています。

これは、ユーザーがモデルをどのように操作するかをよりよく理解するためであり、現段階でGPU費用を低く抑えるためとのことです。

Spell ウェブサイトへ


Making AI Worlds

コメント

Translate »
タイトルとURLをコピーしました