2022年9月23日(現地時間)- NVIDIA Researchは、学習した画像からテクスチャ付き3Dオブジェクトを生成するAIモデル『NVIDIA GET3D』を発表しました。
NVIDIA GET3D について
NVIDIA GET3Dは、2D画像のみを用いて学習させ、高忠実度のテクスチャと複雑な幾何学的細部を持つ3D形状を生成します。
これらの3Dオブジェクトは、一般的なグラフィック・ソフトウェア・アプリケーションで使用されているのと同じフォーマットで作成されるため、ユーザーはすぐに3Dレンダラーやゲーム・エンジンに形状をインポートして、さらに編集することが可能です。
生成されたオブジェクトは、ゲーム、ロボット工学、建築、ソーシャルメディアなどの業界向けに設計された、建物、屋外空間、都市全体の3D表現に使用することができます。
GET3Dは、学習させたデータに基づいて、事実上無限の数の3D形状を生成することができます。芸術家が粘土の塊を細かい彫刻に変えるように、このモデルは数字を複雑な3D形状に変換します。
例えば、2Dの自動車画像のトレーニングデータセットでは、セダン、トラック、レースカー、バンのコレクションを作成します。動物の画像を学習させると、キツネ、サイ、馬、クマなどの生き物を生成する。椅子の画像では、回転椅子、ダイニングチェア、リクライニングチェアなどが生成されます。
1度に複数の3Dオブジェクトを生成
従来の3DジェネレーティブAIモデルは、手作業に比べれば早いものの、ディテールの表現に限界がありました。最近の逆レンダリング手法でも、様々な角度から撮影した2D画像に基づいて3Dオブジェクトを生成することしかできず、開発者は一度に1つの3D形状を構築しなければならない。
GET3Dは、1つのNVIDIA GPUで推論を実行すると、1秒間に約20の形状を生成することができます。これは、2D画像に対して生成的敵対ネットワーク(Generative adversarial network)のように働き、3Dオブジェクトを生成します。学習するデータセットが大きく、多様であればあるほど、出力はより多様で詳細になります。
NVIDIAの研究者は、異なるカメラアングルから撮影された3D形状の2D画像からなる合成データでGET3Dを学習させました。NVIDIA A100 Tensor Core GPUを使用し、約100万枚の画像に対してわずか2日でモデルを学習させることができたとのことです。
形状、テクスチャ、マテリアルの変更が可能に
GET3Dの名前の由来は、Generate Explicit Textured 3D meshes(明示的テクスチャ3Dメッシュの生成)です。つまり、作成された形状は、ペーパークラフトのような三角メッシュの形で、テクスチャ素材で覆われています。これにより、ゲームエンジンや3Dモデラー、フィルムレンダラーにオブジェクトを簡単にインポートし、編集することができます。
GET3Dで生成された形状をグラフィックスアプリケーションにエクスポートすると、シーン内でオブジェクトが移動したり回転したりする際にリアルな照明効果を適用することができます。NVIDIA Researchの別のAIツールであるStyleGAN-NADAを組み込むことで、開発者はテキストプロンプトを使って画像に特定のスタイルを追加することができます。
今後について
Nvidiaの研究者は、GET3Dの将来のバージョンでは、カメラのポーズ推定技術を使用して、開発者が合成データセットの代わりに実世界のデータでモデルを訓練できるようにすることができると述べています。
つまり、開発者はGET3Dを一度に1つのオブジェクトカテゴリについて学習させるのではなく、あらゆる種類の3D形状について一度に学習させることができるようになる予定です。
元となる論文『GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images』は、11月26日から12月4日までニューオーリンズで開催されるNeurIPS AIカンファレンスに採択されています。
World-Class: NVIDIA Research Builds AI Model to Populate Virtual Worlds With 3D Objects, Characters
コメント