Google DeepMindがインタラクティブな世界を生成可能な汎用ワールドモデル「Genie 3」を発表！

2025年8月5日（現地時間）- Google DeepMindは、多様性とリアリズムを備えたインタラクティブ環境を生成できるワールドモデル「Genie 3」の発表を行いました。

ワールドシミュレーションに向けた取り組み
Genie 3の能力
エージェント研究とGenie 3の連携
現在の限界と課題
責任ある開発体制
次のステップ

ワールドシミュレーションに向けた取り組み

Google DeepMindは過去10年以上にわたり、シミュレーション環境の研究開発を積み重ねてきました。リアルタイムストラテジーゲームの習得から、オープンエンドな学習やロボティクス向けシミュレーションに至るまで、その成果は多岐に渡ります。このような取り組みが、ワールドモデル開発の背景となっています。

ワールドモデルとは、世界の理解を基にその構成要素をシミュレートできるAIシステムを指します。エージェントが環境の進化や、自身の行動がもたらす影響を予測可能となることで、より高度な学習が実現されます。

また、ワールドモデルは、リッチなシミュレーション環境でエージェントを無限の学習課題の中で訓練できるようになるため、AGI（汎用人工知能）に向けた重要なステップともされています。

昨年、Google DeepMindはGenie 1とGenie 2を公開し、エージェント向けの新たな環境生成を可能にしました。さらに、物理法則への直感的な理解を示すVeo 2およびVeo 3の開発を通じて、ビデオ生成技術の革新も進めてきました。

Genie 3は、Genie 2と比較して環境の一貫性とリアリズムを向上させ、リアルタイムでのインタラクションを可能にした初のモデルとなっています。

Genie 3: Creating dynamic worlds that you can navigate in real life

Genie 3の能力

以下は、Genie 3によるリアルタイムインタラクションの記録です。

世界の物理的特性のモデリング

水や光のような自然現象や、複雑な環境インタラクションを体験できます。

自然界のシミュレーション

動物の行動から複雑な植物の生態まで、活気ある生態系を生成できます。

アニメーションとフィクションのモデリング

想像力を活用し、幻想的なシナリオや表現力豊かなアニメキャラクターを創造できます。

場所や歴史的設定の探求

地理的・時間的な境界を超えて、様々な場所や過去の時代を探求できます。

リアルタイム性と技術的ブレークスルー

Genie 3が高度な制御性とリアルタイムでの双方向性を実現するためには、いくつかの技術的な革新が不可欠でした。

モデルが各フレームを自己回帰的に生成する過程では、時間の経過に伴い蓄積される過去の軌跡を常に参照する必要があります。たとえば、ユーザーが1分後に以前通った場所へ戻った場合、その場所に関する1分前の情報が保持され、再利用されなければなりません。

こうしたリアルタイム性を可能にするためには、モデルがユーザーからの新たな入力に応じて、1秒間に複数回の計算を行う処理能力を備えている必要があります。

長時間にわたる環境の一貫性

長時間にわたる環境の一貫性を保つことは技術的に難易度が高く、誤差が時間とともに蓄積する傾向があります。にもかかわらず、Genie 3では数分間にわたり物理的な一貫性が維持されており、視覚的記憶は最大1分前まで遡ることができます。

このような一貫性は創発的な能力であり、NeRFやガウススプラッティングのような手法が明示的な3D表現に依存しているのとは異なり、Genie 3はプロンプトとユーザーの行動に基づいて、フレームごとに動的かつ豊かな世界を構成しています。

プロンプトによるワールドイベント

Genie 3はナビゲーション入力に加え、「プロンプトによるワールドイベント」と呼ばれるテキストベースの表現にも対応しております。この機能を活用することで、天候の変化、新たなオブジェクトやキャラクターの導入など、世界の様相をテキストによって操作することが可能となります。

この能力により、ナビゲーション操作では得られない体験が強化され、また「もしも」のシナリオを通じて、エージェントが予期せぬ状況に対処するための反実仮想学習も実現します。

エージェント研究とGenie 3の連携

Genie 3で生成された世界が将来的なエージェント訓練に適合するかを検証するため、Google DeepMindは3D仮想環境向け汎用エージェント「SIMAエージェント」の最新バージョンにて試験を実施しました。各世界でエージェントに複数の目標を与え、Genie 3がナビゲーションアクションに応じた未来の世界をシミュレートする形で実験が行われました。

Genie 3は一貫性を維持できるため、より長い一連のアクションを実行し、より複雑な目標を達成することが可能になりました。この技術は、AGI（汎用人工知能）を目指し、エージェントが世界でより大きな役割を果たすようになる中で、重要な役割を担うと期待されています。

現在の限界と課題

Genie 3は、ワールドモデルの限界を押し広げる一方で、以下のような現時点での課題も認識されています：

限られたアクションスペース：プロンプトによる介入は多様な環境変化を可能にしますが、エージェント自身の直接操作は制約があります
複数エージェント間の相互作用：共有環境での複雑なエージェント同士の動きの再現には、さらなる研究が必要です
実世界の場所再現の精度：地理的な正確性を完全に再現するにはまだ課題が残ります
テキストレンダリング：明瞭なテキスト生成は、世界の記述に明示されている場合に限られます
インタラクション時間の制限：現在は数時間連続した操作ではなく、数分間の継続的なインタラクションに対応しています

責任ある開発体制

Google DeepMindは、基盤技術における責任ある開発の重要性を強く認識しており、とくにGenie 3のようなオープンエンドかつリアルタイム能力を持つモデルには、特有の安全性や倫理的リスクが存在すると考えています。

このような技術革新がもたらす潜在的な利益を最大化するとともに、リスクを適切に緩和するため、同社は責任ある開発とイノベーションに特化したチームと連携してきました。

Genie 3は、限定的なリサーチプレビューとして、少数の学者やクリエイターに早期アクセスが提供されます。これは、技術の活用とリスク理解の両面でフィードバックを収集する重要な機会であり、今後もコミュニティと協力しながら安全で責任ある発展を推進していく方針とのことです。

次のステップ

Google DeepMindは、Genie 3がワールドモデルの進化における重要な節目であると認識しており、AI研究やジェネレーティブメディアのさまざまな分野にすでに影響を及ぼし始めていると考えています。こうした背景から、今後さらに多くのテスターにGenie 3を提供する方法を模索しています。

Genie 3は、教育やトレーニング分野にも新たな可能性をもたらします。学生の学習を支援したり、専門家が実践的な経験を積む場を提供したりすることが期待されています。また、ロボットや自律システムなどのエージェントを訓練するための広大な仮想空間を提供するだけでなく、個々のエージェントのパフォーマンスを評価し、その課題や弱点を見つけて改善を図ることも可能です。

これらすべての取り組みを通じて、Google DeepMindは技術が社会や人類に与える影響を常に注視しながら、安全かつ責任ある方法で開発を推進するとしています。

Genie 3: A new frontier for world models