2022年9月29日(現地時間) – Google Research の研究者とUC Berkeleyの学生らは テキストから3Dアセットを作成する Dreamfusion の研究論文を公開しました。
Dreamfusionとは
最近のテキストから画像を生成するAIシステムの進歩は、何十億もの画像とテキストのペアで学習されたディフュージョンモデルによってもたらされたものですが、3Dデータにおいて、これに相当するものはありません。
この研究では、テキストから画像を生成するディフュージョンモデルを活用することによって3次元学習データと画像拡散モデルの改変なしで、テキストから3Dの生成を試みるものとなっています。
The 3D model we generate is an improved NeRF that produces a 3D volume with density, color, and surface normals: pic.twitter.com/KhxqY5EN0p
— Ben Poole (@poolio) September 29, 2022
DreamFusionは、様々なテキストから忠実な外観、奥行き、法線を持つ再照明可能な3Dオブジェクトを生成します。生成されたモデルは、3Dレンダラーやモデリングソフトウェアに簡単に統合できるよう、マーチングキューブ・アルゴリズムを使用してメッシュにエクスポートすることが可能です。
実際に使用はできませんが、ギャラリーから生成した3Dモデルを確認することが可能です。一部はダウンロード可能となっています。
どのように動作するか
キャプションが与えられると、DreamFusion は、 Imagen というテキストから画像への生成モデルを用いて、3Dシーンを最適化します。
この研究では、損失関数を最適化することによってDiffusionモデルからサンプルを生成する方法 Score Distillation Sampling (SDS) が提案されています。SDSは、画像に微分的にマップバックできる限り、3次元空間のような任意のパラメータ空間においてサンプルを最適化することができ、この微分可能なマッピングを定義するために、Neural Radiance Fields(NeRF)に似た3Dシーンパラメタリゼーションを使用しています。
SDSは単独で合理的なシーンの外観を生成しますが、DreamFusionでは正則化と最適化戦略を追加することで、さらにジオメトリを改善しています。
結果として、学習されたNeRFは、高品質な法線、表面形状、深度を持ち、ランバートシェーディングモデルで再照明可能な一貫性のあるものとなります。
コメント