南洋理工大学、インペリアルカレッジロンドン、Math Magicの研究チームによって発表された論文「Sparse Representation and Construction for High-Resolution 3D Shapes Modeling」の内容の紹介です。

Sparc3Dとは

高忠実度な3Dオブジェクトの生成は、メッシュデータの非構造的な性質と高密度なボリューメトリックグリッドが持つ3乗の計算量の複雑さにより、2D画像生成より依然として難しい課題となっています。

既存の2段階のパイプライン（VAEを用いてメッシュを圧縮し、その後に潜在空間で拡散モデルによるサンプリングを行う）は、非効率な表現やVAE導入時に生じるモダリティの不一致が原因で、深刻なディテールの損失に悩まされることがよくあります。

この課題に対し、研究チームは「Sparc3D」という統一フレームワークを提案しました。

Sparc3D: Next-Gen High-Resolution 3D Model Generation

Sparc3Dは、「スパースな変形マーチングキューブ表現」であるSparcubesと、新しいエンコーダSparconv-VAEを組み合わせたものとなっています。

Sparcubesは、生のメッシュデータを、スパース（疎）なキューブ上に「符号付き距離場」と「変形場」をマッピングすることで、任意のトポロジー（構造）を持つ高解像度（1024³）のサーフェスに変換します。これにより、微分可能（AIが学習可能）な最適化が実現します。

Sparconv-VAEは、完全にスパースな畳み込みネットワーク上に構築された、初のモダリティ（データの種類）整合性を持つ変分オートエンコーダです。これにより、潜在拡散を通じた高解像度な生成モデリングに適した、効率的でほぼロスレスな3D再構成を実現します。また、その構造にはPoint Transformer V3という既存研究の軽量なアテンション機構が応用されているようです。