テキストから3Dアセットを作成する Dreamfusion の研究論文が公開される

ニュース

2022年9月29日(現地時間) – Google Research の研究者とUC Berkeleyの学生らは テキストから3Dアセットを作成する Dreamfusion の研究論文を公開しました。

Dreamfusionとは

最近のテキストから画像を生成するAIシステムの進歩は、何十億もの画像とテキストのペアで学習されたディフュージョンモデルによってもたらされたものですが、3Dデータにおいて、これに相当するものはありません。

この研究では、テキストから画像を生成するディフュージョンモデルを活用することによって3次元学習データと画像拡散モデルの改変なしで、テキストから3Dの生成を試みるものとなっています。

DreamFusionは、様々なテキストから忠実な外観、奥行き、法線を持つ再照明可能な3Dオブジェクトを生成します。生成されたモデルは、3Dレンダラーやモデリングソフトウェアに簡単に統合できるよう、マーチングキューブ・アルゴリズムを使用してメッシュにエクスポートすることが可能です。

実際に使用はできませんが、ギャラリーから生成した3Dモデルを確認することが可能です。一部はダウンロード可能となっています。

どのように動作するか

キャプションが与えられると、DreamFusion は、 Imagen というテキストから画像への生成モデルを用いて、3Dシーンを最適化します。

この研究では、損失関数を最適化することによってDiffusionモデルからサンプルを生成する方法 Score Distillation Sampling (SDS) が提案されています。SDSは、画像に微分的にマップバックできる限り、3次元空間のような任意のパラメータ空間においてサンプルを最適化することができ、この微分可能なマッピングを定義するために、Neural Radiance Fields(NeRF)に似た3Dシーンパラメタリゼーションを使用しています。

SDSは単独で合理的なシーンの外観を生成しますが、DreamFusionでは正則化と最適化戦略を追加することで、さらにジオメトリを改善しています。

結果として、学習されたNeRFは、高品質な法線、表面形状、深度を持ち、ランバートシェーディングモデルで再照明可能な一貫性のあるものとなります。


より詳しい情報は Dreamfusion ウェブサイトへ

コメント

Translate »
タイトルとURLをコピーしました