2025年9月24日(現地時間)- Nvidia は、ゲームや3DアプリケーションにおけるAI搭載アバターの普及を促進するため、Audio2Face技術をオープンソースとして公開することを発表しました。
Audio2Faceとは
大規模言語モデルや音声モデルを活用した生成AIによって、ビデオゲームからカスタマーサービスまで、ユーザーと自然な会話ができる知的な3Dアバターが生み出されています。こうしたキャラクターを真にリアルな存在にするためには、人間らしい表情が不可欠です。
NVIDIAのAudio2Faceは、AIを用いて音声入力からリアルなフェイシャルアニメーションを生成することができるツールです。
この技術は、音素や抑揚といった音声の音響的特徴を分析してアニメーションデータのストリームを作成し、それをキャラクターの表情にマッピングします。データは、事前に作成されたコンテンツ向けにオフラインでレンダリングすることも、AI駆動の動的なキャラクター向けにリアルタイムでストリーミングすることも可能で、正確なリップシンクと感情豊かな表情を生成することができます。

音声と感情のトリガーがフェイシャルアニメーションとリップシンクを生成する仕組み
オープンソースで提供されるツール
NVIDIAがAudio2FaceのモデルとSDKをオープンソース化することにより、あらゆるゲーム開発者や3Dアプリケーション開発者が、最先端のアニメーションを持つ高品質なキャラクターを構築・展開できるようになります。
さらに、Audio2Faceのトレーニングフレームワークも公開されており、誰でも既存のモデルを特定の用途に合わせてファインチューニングやカスタマイズが可能です。
公開されるツールの全リストは以下の表をご覧ください。
■Audio2Face SDKとプラグイン
| Audio2Face-3D SDK | AIを使用してストリーミング音声を顔のブレンドシェイプに変換し、リアルタイムのリップシンクとアニメーションを実現します。SDKにはMITライセンスでC++とPythonのソースコードが含まれます。 | SDKをダウンロード ドキュメンテーション |
| Audio2Face-3D プラグイン | Unreal Engine 5およびAutodesk Maya用のプラグイン。高品質な音声駆動のフェイシャルアニメーションを実現します。両方ともMITライセンスで利用可能です。 | UEゲーミングサンプル UE 5.6プラグイン Maya ACEプラグイン |
■Audio2Faceモデルとトレーニングデータ
| Audio2Face-3D モデル | リップシンクを生成するための回帰モデル(2.3)と拡散モデル(3.0)。NVIDIA Open Model Licenseを通じてONNX-TRT形式で利用可能です。 | UEモデル (3.0) UEモデル (2.3) オープンソースモデル (3.0) オープンソースモデル (2.3) |
| Audio2Emotion-3D モデル | 音声から感情状態を推測するための製品版モデル(2.2)と実験的モデル(3.0)。カスタムライセンスを通じてONNX-TRT形式で利用可能です。 | モデル (3.0) をダウンロード モデル (2.2) をダウンロード ドキュメンテーション |
| Audio2Face-3D トレーニング | 独自のデータでAudio2Face-3Dモデルを作成するためのトレーニングフレームワーク。ソースコードはApacheライセンスのPythonで利用可能です。 | トレーニングフレームワーク サンプルデータ ドキュメンテーション |
詳細はNVIDIA Developerサイトで確認できます。
技術をオープンソース化することで、開発者や学生、研究者が最新のコードから学び、それを基に新しいものを生み出せるようにしています。Nvidia は、こうした取り組みによって、コミュニティが新機能を加えたり、さまざまな用途に合わせて技術を改良したりする「フィードバックの循環」が生まれるとしています。
業界での採用事例
業界をリードするAudio2Faceモデルは、ゲーム、メディア&エンターテインメント、カスタマーサービス業界で広く採用されています。
Convai、Codemasters、GSC Games World、Inworld AI、NetEase、Reallusion、Perfect World Games、Streamlabs、UneeQ Digital Humansなど、数多くのISVやゲーム開発者が自社のアプリケーションにAudio2Faceを統合しています。
クリエイター向けに3Dキャラクター構築プラットフォームを提供するReallusion社は、自社のツールスイートにAudio2Faceを統合しました。Reallusion社のイノベーション責任者であるElvis Huang氏は次のように述べています。
「Audio2FaceはAIを駆使し、音声から表現力豊かな多言語のフェイシャルアニメーションを生成します。ReallusionのiClone、Character Creator、iClone AI Assistantとのシームレスな統合に加え、フェイスキー編集、フェイスパペッティング、AccuLipといった高度な編集ツールにより、高品質なキャラクターアニメーションの制作がこれまで以上に簡単になりました。」
「Alien: Rogue Incursion Evolved Edition」の開発元であるSurvios社は、アニメーションプロセスを高速化し、高品質なキャラクター体験をより早く提供できるようになりました。Survios社のゲームディレクター兼リードエンジニアであるEugene Elkin氏は次のように語っています。
「Audio2FaceをEvolved Editionに統合することで、リップシンクとフェイシャルキャプチャのパイプラインを効率化し、プレイヤーにとってより没入感のある、本物らしいキャラクター体験を保証することができました」
「Chernobylite」シリーズの制作者であるThe Farm 51社は、最新作にAudio2Faceを統合しました。The Farm 51社のクリエイティブディレクター、Wojciech Pazdur氏は次のように述べています
「『Chernobylite 2: Exclusion Zone』へのNVIDIA Audio2Face技術の統合は、私たちにとって画期的なことでした。これにより、音声から直接、非常に詳細なフェイシャルアニメーションを生成でき、数え切れないほどのアニメーション作業時間を節約できました。初代『Chernobylite』では不可能だったアイデアが実現可能になり、キャラクターに新たなレベルのリアリズムと没入感がもたらされ、彼らの演技がこれまで以上に本物らしく感じられるようになりました。」
ゲーム開発者向けリソースの全リストはこちらで確認できます。























コメント