2024年3月21日 (現地時間) – Nvidia は、テキストプロンプトを高品質な3D形状に高速に変換する新しいAIモデル『LATTE3D』を発表しました。
LATTE3Dとは
『LATTE3D』は、トロントに拠点を置くNvidiaのAIラボチームによる新しいテキストから3Dの生成AIモデルです。このモデルは、テキスト入力を1秒以内に物体や動物の3D表現に変えることが可能で、NVIDIA Researchのデモに使用されたNVIDIA RTX A6000のような単一のGPUで推論を実行する場合、ほぼ瞬時に3D形状を生成できます。
これにより、クリエイターはゼロからデザインを始めたり、3Dアセットライブラリを探し回ったりする代わりに、LATTE3Dを使用して、アイデアが頭に浮かんだらすぐに詳細なオブジェクトを生成することができます。
このモデルは、各テキストプロンプトに基づいていくつかの異なる3D形状オプションを生成し、クリエイターに選択肢を与えます。選択されたオブジェクトは、数分以内に高品質に最適化されます。その後、ユーザーは、グラフィックスソフトウェアアプリケーションや、ユニバーサルシーン記述(OpenUSD)ベースの3Dワークフローやアプリケーションを可能にするNVIDIA Omniverseなどのプラットフォームに形状をエクスポートすることができます。
■独自のデータセットでトレーニング
研究者たちは、LATTE3Dを2つの特定のデータセット(動物と日常的なオブジェクト)で訓練しましたが、開発者は同じモデルアーキテクチャを使用して、他のデータタイプでAIを訓練することができます。
例えば、3D植物のデータセットで学習させれば、LATTE3Dのバージョンは、ランドスケープデザイナーがクライアントとブレインストーミングをしながら、庭のレンダリングに樹木、花の咲く茂み、多肉植物を素早く配置するのに役立ちます。また、このモデルを家庭のオブジェクトに学習させれば、家庭の3Dシミュレーションを埋めるアイテムを生成することができる。これにより、開発者はパーソナルアシスタントロボットをテストして実世界に配備する前のトレーニングに使用することが可能です。
■プロンプトの理解能力が向上
LATTE3Dは、NVIDIA A100 Tensor Core GPUを使って学習されました。3D形状に加えて、ChatGPTを使用して生成された多様なテキストプロンプトでモデルをトレーニングし、ユーザーが特定の3Dオブジェクトを説明するときに思いつく可能性のあるさまざまなフレーズを処理するモデルの能力を向上させました。例えば、様々なイヌの種類を表すプロンプトを理解します。
より詳しい情報はLATTE3D プロジェクトページへ
NVIDIA Gen AI Research Brews 3D Shapes in Under a Second | NVIDIA Blog
コメント