2025年1月6日(現地時間)- Nvidia は、NVIDIA ACE 自律型ゲームキャラクターを可能にする新しいNVIDIA ACE AIモデルを発表し、その活用例を紹介しました。
ここでは、NVIDIA Audio2Face のアップデート情報と Project R2X プレビュー についても合わせて紹介したいと思います。
ゲームAIの再定義
「AI」という言葉は、何十年もの間、ゲームで使われてきた言葉で、このような非プレイアブルキャラクター(NPC)は、ゲームに登場するキャラクターの一種です。これらの非プレイアブルキャラクター(NPC)は、伝統的に、知性を模倣し、誘導されたストーリーを遵守し、プレイヤーとの台本化されたインタラクションを提供するように設計された厳格なルールに従っています。
この度、NVIDIAはNVIDIA ACE 自律型ゲームキャラクター(autonomous game character)を発表し、ゲームAIを再定義するとしています。
ACEは会話型NPCから、AIを使って人間のプレイヤーのように知覚し、計画を立て、行動する自律型ゲームキャラクターへと拡張されます。
生成AIを搭載したACEは、プレイヤーの目標を理解しサポートする仲間や、プレイヤーの戦術に動的に適応する敵など、生きたダイナミックなゲーム世界を実現します。
これらの自律的なキャラクターを可能にするのは、現実的な意思決定に必要な人間のような周波数でのプランニングが可能な新しいACE small language model (SLM)と、AIキャラクターが音声の合図を聞き、環境を認識することを可能にする視覚と音声用のマルチモーダルSLMで、NVIDIAは、主要なゲーム開発者と提携し、ACEの自律型ゲームキャラクターをタイトルに組み込んでいます。
新しいNVIDIA ACE AIモデルによる自律型ゲームキャラクター
従来のルールベースのAIシステムでこのような人間の特徴を模倣することは、開発者がコーディングすることは不可能です。しかし、生成AIと、人間がどのように世界に反応するかを記述した何兆もの文章で訓練された大規模な言語モデルの助けを借りれば、人間のような意思決定をシュミレーションできるようになります。
NVIDIA ACEの自律型ゲームキャラクターは、知覚、認知、行動、およびレンダリングのための生成AIモデル群によって駆動され、開発者は、より人間のように考え、感じ、行動するAIエージェントをゲームで作成することができます。
自律型ゲームキャラクター向けの新しい生成AIモデルは以下の通りです。
■知覚 – 世界を感知するモデル
SLMが適切な判断を下すためには、自律的なゲームキャラクタに提供される高頻度の知覚データが必要です。この感覚データを取得するために、次のモデルと技術が使用されます。
- オーディオ
- NemoAudio-4B-Instruct:ゲーム環境のサウンドスケープを表現できる新しいオーディオ+テキスト入力およびテキスト出力SLM。
- Parakeet-CTC-XXL-1.1B-Multilingual:多言語の音声をテキストに書き起こします。
- ビジョン
- NemoVision-4B-128k-Instruct:シンプルな空間理解が可能な新しいオーディオ+画像入力およびテキスト出力SLM。
- ゲームの状態
- ゲームの世界における最良の情報源の1つはゲームそのものです。ゲームの状態はテキストに書き起こすことができるため、SLMはゲームの世界について推論することができます。
■認知 – 世界について考えるためのモデル
Nvidiaのesports研究によると、ほとんどのゲーマーは「サブムーブメント」と呼ばれる1秒間に約8~13回の微小な意思決定を行っていることがわかっています。これらは、狙いの方向を修正したり、スキルを使うタイミングを決めたりするような単純なタスクであったり、戦略の見直しを開始することを決めるような複雑なタスクであったりします。
一般に、認知のタスクは非常に頻度が高いため、レイテンシとスループットの両方の要件を満たすために、タスクを実行するための小さな言語モデルが必要となります。認知のためのACE SLMには以下のようなものがあります。
- Mistral-Nemo-Minitron-8B-128k-Instruct:自律型ゲームキャラクターにとって重要な能力である、指示に従う能力の点でトップクラスを誇る最先端の小型言語モデル。
- Mistral-Nemo-Minitron-4B-128k-Instruct:同じモデルですが、小さい。
- Mistral-Nemo-Minitron-2B-128k-Instruct:さらに小型化! わずか 1.5GB の VRAM に収まります。
■アクション – 世界で行動するためのモデル
行動には、スピーチ、ゲームアクション、長期的な計画など、さまざまな形があります。効果的にアクションを実行するために、開発者はモデルと戦略を組み合わせて使用することができます
- アクションの選択:ゲーム内で実行できるアクションが限られているため、SLM は最適なアクションを選択できます (以下のinZOIのように)。
- テキスト読み上げ:Elevenlabs.ioやCartesiaのような優れたテキスト読み上げモデルを使用して、テキスト応答を音声応答に変換できます。
- 戦略計画:大規模なデータコーパスを処理して推論する場合、これらのエージェントは、より高レベルで低頻度の戦略を提供できる大規模なモデルにアクセスできます。多くの場合、これはクラウド LLM API または SLM への一連の CoT (Chain-of-Thought) プロンプトです。
- 反省:重要な行動の1つは、以前の行動の結果を振り返ることです。「正しい選択をしただろうか?」この行動は、時間の経過とともにより良い将来の行動を生み出し、キャラクターが自分自身を修正することを可能にします。
■記憶 – 世界を記憶するモデル
自律型ゲームキャラクターにとって、以前の知覚、行動、認知を思い出すことができる記憶は非常に重要です。また、長期的な目標や動機づけを追跡するためにも有効です。Retrieval Augmented Generation(RAG)と呼ばれるテクニックを使用すると、開発者は類似検索を使用して、現在のプロンプトに関連する情報を「記憶」することができます
- E5-Large-Unsupervised:NVIDIA In-Game Inference SDKを使用すると、開発者はゲームプロセス内での埋め込みに最適化された埋め込みモデルを使用できます。
上記のモデルとテクニックを組み合わせることで、Nvidiaのパートナーは初の自律型ゲームキャラクター体験を作り上げました。
次の記事では、その例を紹介しています。
NVIDIA Audio2Face が近々大幅アップデート
音声主導のAIフェイシャルアニメーションAudio2Faceに間もなく大きなアップデートがあり、キャラクターがより表情豊かになる予定です。
新しいAudio2Faceリアルタイム拡散ベースアーキテクチャより、より正確で詳細なリップシンク、改善されたダイナミックで生き生きとした感情、自然な非言語応答が可能となります。
エージェント型ワークフローのための最新のNVIDIA ACEオンデバイスモデルは、早期アクセスで間もなく登場します。
必要な AI モデル、エンジン、依存関係を PC に事前構成するNVIDIA In-Game Inferencing (IGI) SDKを使用して、必要なAIモデル、エンジン、依存関係でPCを事前設定することができます。このSDKは、C++ゲームやアプリケーションのためのインプロセスAI推論を構築し、さまざまなハードウェアアクセラレータのすべての主要な推論バックエンドをサポートしています。
Project R2X プレビュー
RTXファンや開発者がNIMマイクロサービスを使用してAIエージェントやアシスタントを構築する方法を示すために、NvidiaはProject R2Xをプレビューしました。
Project R2Xは、ユーザーの指先に情報を置いたり、デスクトップアプリやビデオ会議通話をアシストしたり、文書を読んだり要約したりすることができるビジョン対応PCアバターです。
このアバターは、NVIDIA RTX Neural Facesを使用してレンダリングされます。NVIDIA RTX Neural Facesは、従来のラスタライズを完全に生成されたピクセルで補強する新しい生成AIアルゴリズムです。そして顔は、唇や舌の動きを改善する拡散ベースの新しいNVIDIA Audio2Face™-3Dモデルによってアニメーション化されます。
R2Xは、OpenAIのGPT4oやxAIのGrokなどのクラウドAIサービスや、CrewAI、Flowise AI、Langflowなどの開発者向けフレームワークを介して、PDFリトリーバーや代替LLMなどのNIMマイクロサービスやAIブループリントに接続することができます。
こちらから登録することでProject R2Xのアップデートを受け取ることができます。
NVIDIA Redefines Game AI With ACE Autonomous Game Characters
コメント