南洋理工大学、インペリアル カレッジ ロンドン、Math Magicの研究チームによって発表された論文「Sparse Representation and Construction for High-Resolution 3D Shapes Modeling」の内容の紹介です。
Sparc3Dとは
高忠実度な3Dオブジェクトの生成は、メッシュデータの非構造的な性質と高密度なボリューメトリックグリッドが持つ3乗の計算量の複雑さにより、2D画像生成より依然として難しい課題となっています。
既存の2段階のパイプライン(VAEを用いてメッシュを圧縮し、その後に潜在空間で拡散モデルによるサンプリングを行う)は、非効率な表現やVAE導入時に生じるモダリティの不一致が原因で、深刻なディテールの損失に悩まされることがよくあります。
この課題に対し、研究チームは「Sparc3D」という統一フレームワークを提案しました。
Sparc3Dは、「スパースな変形マーチングキューブ表現」であるSparcubesと、新しいエンコーダSparconv-VAEを組み合わせたものとなっています。
- Sparcubesは、生のメッシュデータを、スパース(疎)なキューブ上に「符号付き距離場」と「変形場」をマッピングすることで、任意のトポロジー(構造)を持つ高解像度(1024³)のサーフェスに変換します。これにより、微分可能(AIが学習可能)な最適化が実現します。

- Sparconv-VAEは、完全にスパースな畳み込みネットワーク上に構築された、初のモダリティ(データの種類)整合性を持つ変分オートエンコーダです。これにより、潜在拡散を通じた高解像度な生成モデリングに適した、効率的でほぼロスレスな3D再構成を実現します。また、その構造にはPoint Transformer V3という既存研究の軽量なアテンション機構が応用されているようです。

これにより、Sparc3Dは、開いたサーフェス、分離したコンポーネント、複雑な幾何学形状といった、これまでの技術では難しかった入力に対しても、最先端の忠実度で再構成することに成功しました。
この技術は、微細な形状ディテールを保持し、学習と生成にかかるコストを削減し、スケーラブルで高解像度な3D生成のための潜在拡散モデルと自然に統合することができます。
デモを試す
プロジェクトのページで例をたくさん見ることができますが、かなり高品質な3Dモデルを生成できるという噂だったので、Hugging Face のデモを試してみました。
アニメ画からリアルな人物、メカまでAIで生成したさまざまな画像を入力して得られた結果(.glbで出力されます)をBlenderでレンダリングしました。入力画像と異なる点もありますが、品質についてはかなり進化してきているのを感じます。
- 例 1
- 例 2
- 例 3
- 例 4
- 例 5





プロジェクトリンク
より詳細な情報や、実際の動作デモは以下のリンクからどうぞ
- 論文
- プロジェクトページ
- デモ (Hugging Face)
- コード (GitHub)
※コードはMath Magicの許可が得られれば公開されるようです。
























コメント