2026年6月1日（現地時間）、3D生成AIおよび空間コンピューティングの基盤モデル開発に取り組むTripoは、持続的でマルチプレイヤー対応の新しいワールドモデル「Project Eden」の研究プレビューを発表しました。

この発表では、映像生成AIの急速な発展に伴い業界内で議論が活発化している「ワールドモデル」の定義について、Tripo（VAST AI Research）の研究者が抱く現在の課題感や技術的な見解が詳細に述べられています。今回は、この技術背景と、それを踏まえた「Project Eden」のアプローチをあわせて紹介したいと思います。

はじめに
ワールドモデル研究における「2つの限界」
Project Edenとは
システムを構成する3層のアーキテクチャ
構造と視覚の整合性をとる学習方法
1. インターネット動画の大規模な逆構造化（デコンストラクション）
2. ゲームエンジンによる合成シミュレーションデータ
Project Eden の特徴と実証デモ
この研究の意義
今後の展望

はじめに

昨今、生成AIは動画の領域においてめざましい進化を遂げています。特に、ユーザーの指示入力（アクション）に応じて連続的な映像内の動きを作り出す「アクション条件付き生成（action-conditioned generation）」の台頭により、これらのシステムを「ワールドモデル」として捉える動きが業界内で急速に広がってきました。

「しかし、次のピクセル列を予測することは、本当に『世界（ワールド）』をシミュレーションすることと同義なのでしょうか？」

VAST の研究者たちはこの問いに対し、「必ずしもそうではない」という極めて重要な見解を提示しています。

従来のビデオ生成モデルは、あくまでピクセルがどのように変化するべきかを予測しているにすぎません。真のワールドモデルであれば、描かれたピクセルが何を表しているのか、すなわち、オブジェクト（物体）、空間、発生したイベント、ユーザーのアクション、永続的な記憶、そして時間の経過とともに引き継がれていく物理的な因果関係までを「推論」できなければならない、と指摘しています。

ワールドモデル研究における「2つの限界」

Tripoは、これまでワールドモデルの実現を目指してきた研究は、大きく分けて2つの方向性に分断されており、それぞれが根本的な壁に突き当たっていたと分析しています。

1. アクション条件付き動画生成の限界

現在主流となっている単眼カメラベースの動画生成モデルは、主に2次元のピクセル空間における自己回帰的予測（過去の映像を元に次の映像を予測する手法）に依存して動作しています。このアプローチでは、「世界の物理的な進展」と「現在のカメラ視点のレンダリング」が密接に結合しているため、モデルが持つ世界に対する「理解」のすべてが、直近の数フレームという極めて短い文脈（コンテキストウィンドウ）の中に圧縮されてしまいます。

これが、世界の「永続性（persistence）」を保証する上での決定的な限界となります。オブジェクトがカメラの画角（フラスタム）の外に出た際、それを独立して保持するための「世界の状態（ステート）」が存在しないため、カメラを再び元の場所に戻したとき、モデルはこれまでの文脈からそのオブジェクトを再推論しなければならなくなります。この時に発生するのが、ハルシネーション（幻覚）です。オブジェクトの位置がズレたり、消えたり、不自然に変化して現れたりするおなじみの現象は、この「持続的な世界の状態」を保持できない構造に起因しています。この手法は時間と動きを捉えることには優れていますが、永続的な世界の状態を欠いています。

2. 静的な3Dシーン生成の限界

もう一方の方向性である、静的な3Dシーン生成システムは、強固な空間構造を提供し、ユーザーが環境内を自由に移動できる空間を構築可能です。しかし、これらのシステムはシーンを「固定されたアセット（彫刻のようなもの）」として扱います。

時間の経過、物理法則、状態の推移といった動的な要素は、アーキテクチャそのものに組み込まれていません。すなわち、空間を捉えることには適していても、連続的かつ動的な世界の進化を描くことができないという課題があります。

一方は「永続性のない動き」を捉え、他方は「進化のない構造」を捉えているという、二極化された限界がこれまでの現状でした。

VASTは、基盤となる真のワールドモデルとして機能するためには、この「動き」と「構造」の双方を必ず備え、以下の2つの根本的な課題を同時に解決する必要があるという見解を示しています。

状態（State）：カメラ視点やレンダリング処理とは完全に独立した、任意の瞬間における世界の客観的な状況（3D構造や属性など）を定義すること。
移行（Transition）：時間の経過や、アクション、イベント、決められたルールに沿って、その世界の状態を論理的に更新（前進）させること。

Project Edenとは

今回、研究プレビューが公開された「Project Eden」は、持続性を備え、マルチプレイヤーでの同時接続をサポートしたワールドモデルです。

既存のパラダイムを根本から覆し、「基底となる世界状態（State）」と「視覚的なレンダリング（Rendering）」を完全に切り離す（デカップリングする）という設計方針が採用されています。

Project Edenは、世界を一連の儚いフレームの連続（ピクセルの履歴）として処理するのではなく、持続的に動き続け、ユーザーのアクションによってリアルタイムに改変可能で、どのような視点からも一貫した状態で観察できる「構造化され進展する環境」として世界を定義しています。

Introducing Project Eden, a world model research preview from @VASTAIResearch

Edenは、「空間、イベント、視点、オブジェクトのアイデンティティ、物理変化、そして最終的な見栄えを、すべてピクセルの履歴のみに圧縮してはならない」というシンプルな設計原則から出発しています。

現実のインタラクティブな世界においては、単一のカメラが世界を覗き込む前から、その世界自体が客観的に存在しています。例えば、プレイヤーが壁から目を背けても壁はその場に存在し続けるべきですし、消し止められた火は消えたまま世界に記憶されているべきです。また、2人のプレイヤーが同じコースを異なる角度から見ながらレースをしている場合でも、2人は同期された1つの共通の現実の中で競い合っている必要があります。

研究者たちは、これらはすべて「描画（レンダリング）の問題」である前に、「状態（ステート管理）の問題」であると結論づけています。優れたワールドモデルにおいて、視覚的なレンダリングは「独立して持続する世界の状態を観察するための一つの手段」であるべきであり、状態そのものを保持する媒体にするべきではないという考え方が、Project Edenの根幹となる思想です。

システムを構成する3層のアーキテクチャ

この「世界状態」と「視覚生成」の完全な分離を実現するため、Project Edenは従来の単一（モノリシック）な動画生成モデルに代わり、役割が明確に分担された3レイヤー構造を採用しています。

進化する構造化された状態

時間の経過とともに持続し、アクションによって随時更新され、様々なカメラからのクエリ（問い合わせ）に対応できる「グローバルな世界状態」を維持するレイヤーです。計算効率と時間的な厳密性を両立するため、この状態は肥大化しやすい4D点群のような重いデータではなく、世界の基本的なコンテンツ、大まかな幾何形状、オブジェクトのセマンティクス（意味情報）、そしてユーザーのアクションによってもたらされた結果などを保持する「コンパクトな暗黙的または構造化された表現」として格納されます。

まさに、このレイヤーに「世界そのもの」が存在しています。カメラの画角外に外れたオブジェクトが破棄されることはなく、ユーザーアクションによる変化も、この世界状態に直接書き込まれて保持されます。

状態と観察のインターフェース

特定の視点から映像をレンダリングする必要が生じた際、システムはこの進化する世界状態を読み取り、対応するカメラ位置に応じた局所的な意味情報、幾何学的な手がかり、イベントの変化などの「カメラ条件付きの制約（条件情報）」へと変換します。これらの中間表現はすべて共通のグローバル状態から導き出されるため、異なる複数の視点からシーンを観察しても、物理的に完全に整合した映像が出力される仕組みとなっています。

生成的ニューラルレンダリング

最下層に位置するレンダラーは、上位レイヤーから受け取った「状態に由来する制約」を基に、高精細なビジュアル（テクスチャ、照明、マテリアルの質感、モーション、さらには煙、火、水といった局所的な物理流体ダイナミクス）を生成します。レンダラーの役割は世界全体の記憶を保持することではなく、指示された条件に従って「高品質な絵作りに専念すること」に限定されています。

これにより、映像の下部に安定した「世界の現実」が常に維持され、画面に映るイメージは、その世界を観察するための「窓」という役割に徹することができます。

構造と視覚の整合性をとる学習方法

状態ベースのワールドモデルを構築するためには、従来の動画生成AIとは全く異なるデータが必要となります。単なる動画の連続を見せるだけでなく、「シミュレーション状態（構造と論理）」と「レンダリングされた観察結果（詳細なビジュアル）」の2つの形態が、物理的にしっかりと一致したトレーニングデータが不可欠となります。この構築のため、VASTは以下の二元的なデータ戦略を採用しています。

インターネット動画の大規模な逆構造化（デコンストラクション）

インターネット上の動画は多様性と一般的な物理常識を提供してくれますが、データとしては2次元のピクセルにすぎません。

そこでVASTは、これまでに蓄積してきた3D基盤モデル（Tripo）の技術を活かし、アノテーション（ラベル）のない一般的な動画から、深度、カメラ姿勢、幾何学的軌道などの「構造的なシグナル」を逆算（リバースエンジニアリング）する手法を導入しました。これにより、平坦な動画を「構造化された状態と観察のシグナル」へと再構成し、多様な環境に対応する高い汎用性をモデルに学習させています。

ゲームエンジンによる合成シミュレーションデータ

ゲームエンジンは、内部の「物理・ロジックなどの状態」と、画面上に映し出される「レンダリングされた出力」を完全に同期して管理しています。

この仕組みを利用し、正確な3D状態の注釈、アクション指令、カメラ姿勢、オブジェクトの同一性、環境の変化といったクリーンなデータを抽出。これにより、モデルに対して論理的な物理進化、アクションへの忠実な反応、シーンの展開ルールなどを正確にトレーニングさせています。

Project Eden の特徴と実証デモ

世界状態とビジュアルレンダリングを分離したことにより、従来の映像生成AIや静的な3D技術では困難だった数々の機能が実証されています。

環境の永続性と視点の一貫性

Edenが構築する環境内では、オブジェクトが画面の外に消えても失われることはありません。再び視界を戻したり、別視点から観察したりしても、持続するグローバル状態に直接問い合わせるため、オブジェクトは一貫した状態で存在し続けます。これにより、長期にわたる文脈の記憶（ロングホライズンメモリ）が実現しています。

下記の「消火デモ」では、単に炎の消えるエフェクトを描き出しているのではなく、世界状態として「火が完全に消し止められた」という変化を記録・記憶しています。視点を完全にそらした後に再訪しても、状態が保持されているため炎が再び発生することはありません。

豊かな物理的ダイナミクスと多様なユーザー制御

ユーザーによる多種多様なインタラクション（船の操縦や、物理的なオブジェクトの動きへの干渉など）が、即座に世界状態へと反映されます。その状態更新に基づいて、物理法則に則った忠実なダイナミクスがリアルタイムに描写されます。

再利用および編集が可能な世界（サンドボックス性）

一度生成を開始すると外部からの直接的な介入や微修正が困難であった従来の一方向の動画生成モデルとは異なり、Edenでは動作中の世界に対してユーザーが繰り返し介入し、変化を書き込むことが可能です。環境を修正したり、痕跡を残したりといった結果が持続するため、生成するたびに使い捨てる動画クリップではなく、1つの再利用可能なインタラクティブ空間（サンドボックス）として動作します。

さらに、書き込まれた変化は基盤の「世界状態」そのものに保存されるため、同じ世界にアクセスした他のユーザーに対してもその変更は即座に、かつ正確に同期して共有されます。

ネイティブなマルチプレイヤーとマルチエージェント

ピクセルベースの動画生成で複数のプレイヤー視点を同時に再現しようとすると、個別のピクセル履歴が必要になり、視点が増えるにつれて整合性の維持が困難になり、計算コストも膨大になります。Edenでは、全プレイヤーのアクションが1つの「共通のグローバル世界状態」を更新します。システムは、そこから各々のプレイヤーのカメラ位置に応じた個別の視覚映像をレンダリングします。そのため、複数人で世界を共有する「マルチプレイヤー」や、複数のAIが協調して動作する「マルチエージェント」が構造レベルで自然にサポートされています。

下記の「レースデモ」では、同じコース内を2台の車が走行する様子が描かれています。それぞれのプレイヤーは異なる角度のカメラ映像を見ながら操作していますが、根底にある走行コースや互いの位置関係といった「同一の現実」は完全に同期しています。

また、「射撃場デモ」でも、複数人の個別のアクションが、共通する同一空間の物理法則やルールに従って、個々に正しいビジュアルとして出力されています。

自律エージェントのトレーニング環境としての可能性

Vastは、安定した物理的な論理、時間的な一貫性、そして長期にわたるオブジェクトの永続性を兼ね備えたこのような可変型シミュレータは、エンターテインメントとしてのコンテンツ利用に留まらず、「身体化された人工知能（Embodied AI：ロボティクスなど）」のトレーニングや評価のための貴重なシミュレーション環境となる可能性があるとしています。

このアプローチは、Googleの「Genie」などに代表される、インタラクティブで行動可能なワールドモデル研究と同じです。その中で、Tripo（VAST）は、世界を永続的に維持するためのアプローチとして、特に「構造化された状態」と「レンダリング」のデカップリング（分離）というユニークな技術設計に重点を置いている点で独自の立ち位置を示しています。

この研究の意義

Project Eden は、次世代のインタラクティブなデジタルコンテンツ制作を大幅に容易にする「ゲームエンジンのように扱える AI インフラ」を目指しています。同時に、自律エージェントのための堅牢な検証基盤として機能することも重要な目的としています。

クリエイターに対しては、複雑な物理プログラミングやシーン設計を手作業で行う必要がなく、プロンプトを入力するだけで「物理法則やゲームルールを備えた永続的なインタラクティブ 3D 空間」を瞬時に構築できるという、制作のハードルが大きく下がった未来を提示しています。

また、自律ロボティクスなどの研究分野に対しては、アクションの結果が途中で急に消失（リセット）したり、不自然にドリフトして変動したりしない、因果関係が常に安定したシミュレーション環境を提供します。エージェントがアクションを実行し、その結果から一貫した論理を学習するための重要な基盤を担います。

今後の展望

今回公開された「Project Eden」は、汎用ワールドモデルとしての第一歩となる「研究プレビュー」の段階であり、この先の開発に向けた初期段階に過ぎないと説明されています。

今後は、さらに複雑な環境におけるダイナミクス、多様なカメラ探索が可能な自由視点制御、より広範囲なシーン進化、大規模環境の再現、オブジェクト同士のより細やかな相互作用などの課題に取り組んでいくとしています。

技術面では、ユーザーやエージェントのアクション、環境からのフィードバック、ルールといった情報を絶え間なく受け取り、グローバルな世界状態を継続的に更新し続ける高度な「状態遷移モデル」の開発が進められているとのことです。さらに、接続ユーザー数や視点数、扱うオブジェクト数が膨大になった場合でも、遅延のないリアルタイム描画を維持するためのシステム全体の高効率化も求められています。

また、評価指標についても、従来の「視覚的クオリティ」だけに依存する手法から脱却し、永続性、オブジェクト同一性、因果関係、ルールの整合性、クロスビューの一貫性、マルチエージェントの同期性能といった多角的な評価へと移行させていく考えが述べられています。

Project Eden 研究ページへ

Tripo、状態と描画を分離する新アーキテクチャ採用のワールドモデル「Project Eden」の研究プレビューを発表