入力画像のディテールを忠実に再現、ピクセル整列を用いた3D生成手法「Pixal3D」

CGソフト

清華大学、Tencent ARC Lab、およびビクトリア大学ウェリントンの共同研究チームによって発表された研究「Pixal3D: Pixel-Aligned 3D Generation from Images」の紹介です。

この論文は、コンピュータグラフィックス分野のトップカンファレンスであるSIGGRAPH 2026にも採択されています。

Pixal3Dとは?

近年、画像から3Dモデルを生成する技術(Image-to-3D)は急速に進歩し、高解像度の形状やリアルな質感を作成できるようになりました。しかし、生成された3Dアセットが「入力画像のピクセルレベルのディテールをどれだけ正確に再現できているか」という「忠実度(Fidelity)」が、依然として大きな課題となっています

Pixal3Dは、この課題を解決するために開発された新しい3D生成モデルです。単一の入力画像から、詳細なジオメトリ(形状)と物理ベースレンダリング(PBR)テクスチャを備えた、非常に忠実度の高い3Dアセットを生成することが可能です。

Pixal3Dの主な特徴

多くの既存の3Dネイティブ生成モデルは、まず基準となる向き(カノニカル空間)で形状を生成し、「アテンション機構」を通じて画像の特徴を後から注入する方式を採用しています。しかし、、このアプローチでは2Dと3Dの対応関係が暗黙的で曖昧なまま扱われるため、画像のピクセルと3D空間の対応が不明確になり、入力画像と完全に一致するモデルを再現することが難しいという課題がありました。

Pixal3Dは、3D再構成(Reconstruction)技術から着想を得て、この曖昧さを排除する、新しいアプローチを採用しています。

  • ピクセルに整列した直接生成(Pixel-Aligned Generation): カノニカル姿勢で生成する従来方式とは異なり、Pixal3Dは入力画像の視点に整合した3Dをそのまま直接生成します。
  • ピクセル逆投影(Pixel Back-Projection): 画像のマルチスケール特徴を明示的に3Dのフィーチャーボリュームへと直接持ち上げる仕組みを導入しました。これにより、「どのピクセルが3Dのどの部分に対応するか」という曖昧さのないピクセル→3D対応を実現しています。
  • 3D再構成レベルの忠実度: この明確な対応関係の確立により、Pixal3Dはスケーラブルで高品質な3Dアセットを生成できるだけでなく、忠実度の面で大きく改善し、単なる生成を超えた「3D再構成」に近いレベルの精度に到達しています。
  • マルチビューとシーン生成への高い拡張性: 複数ビューから得られた逆投影特徴ボリュームを統合することで、マルチビュー生成にも自然に拡張可能です。さらにこのアプローチはシーン生成においても効果を発揮し、画像から高忠実度でオブジェクトが分離された3Dシーンを生成するモジュール型パイプラインも実現しています。

フレームワーク概要

Pixal3Dのシステムは、大きく3つの主要なコンポーネントで構成されています。

  1. 画像逆投影ベースのコンディショナー: 2Dの画像特徴を、明示的に3Dの特徴ボリュームへと変換(リフト)します。
  2. ピクセル整列構造化潜在表現の学習: VAE(変分オートエンコーダ)を使用して、ピクセル単位で整列された疎なSDF(符号付き距離場)データを、効率的な「疎な潜在表現」に圧縮します。
  3. 2段階の生成プロセス: 上記の特徴ボリュームを条件として与え、まず全体の大まかな構造を予測し、次に詳細な潜在表現を予測します。これをデコードすることで、最終的な高忠実度の3Dメッシュを出力します。

更新情報

  • 2026年5月: 推論コードおよびオンラインデモが公開されました。
  • 2026年5月: より高性能なTrellis.2バックボーンに基づく改良版がリリースされました。(GitHubの main ブランチで公開)
  • 2026年5月: トレーニング用コードとデータ準備ツールキットが公開されました。
  • 2026年4月: コンピュータグラフィックス分野のトップカンファレンスである SIGGRAPH 2026 に論文が採択されました。

利用方法・環境構築

Webブラウザで試す

環境構築をせずに、ブラウザ上で直接Pixal3Dを試すことができるGradioデモがHugging Face上で提供されています。
オンラインデモを起動する

ローカル環境へのインストール

ご自身の環境で実行するための手順は以下の通りです。

ステップ 1:TRELLIS.2 のインストール
ベースとなる環境を構築するため、まずは TRELLIS.2 のインストールガイドに従ってください。

ステップ 2:追加の依存関係をインストール

pip install -r requirements.txt

ステップ 3:utils3d のインストール

pip install https://github.com/LDYang694/Storages/releases/download/20260430/utils3d-0.0.2-py3-none-any.whl

ステップ 4:natten のインストール

ご自身の環境のCUDAアーキテクチャに合わせてインストールします(xx を環境に合わせて変更してください)。

NATTEN_CUDA_ARCH="xx" NATTEN_N_WORKERS=xx pip install natten==0.21.0 --no-build-isolation

推論の実行(Inference)

単一の画像からGLB形式 of 3Dメッシュを生成するコマンドです。

python inference.py --image assets/images/0_img.png --output ./output.glb

VRAMの節約(Low-VRAM モード)

マシンのVRAM(ビデオメモリ)が限られている場合、モデルをオンデマンドで読み込み、ピーク時のVRAM使用量を削減する --low_vram オプションが利用可能です。

python inference.py --image assets/images/0_img.png --output ./output.glb --low_vram

デフォルトでは、標準モードの解像度は1536ですが、Low-VRAMモードを有効にすると自動的に1024に下がります。解像度は --resolution オプションで強制的に指定することも可能です。

Flash Attentionに関する注意点

環境に flash_attn がインストールされていない場合は、環境変数を使用してPyTorchに組み込まれているSDPAバックエンドに切り替えて実行することができます。

ATTN_BACKEND=sdpa python inference.py --image assets/images/0_img.png --output ./output.glb --low_vram

ローカルWebデモの起動

対話的に画像をアップロードして3Dモデルを生成できるGradioのWebデモをローカルで立ち上げるコマンドです。

python app.py

WebデモでもLow-VRAMモードを利用できます。起動時に引数を渡すか、環境変数を設定します。

python app.py --low_vram
# または環境変数を使用
LOW_VRAM=1 python app.py

トレーニングについて

Pixal3Dはオープンソースとしてトレーニングコード全体が公開されており、ゼロからモデルを再現することが可能です。トレーニングは、解像度を段階的に引き上げながら以下の3つのステップ(Cascade)で実行されます。

ステージ目的解像度の遷移
1Sparse Structure(疎な構造の生成)32 → 64
2Shape(形状の生成)256 → 512 → 1024
3Texture(テクスチャの生成)256 → 512 → 1024

すべてのステージで、「ピクセルに整列した投影コンディショニング」と「ビューに整列した潜在表現」が使用されます。トレーニングを行うには、事前提供されているデータツールキット(data_toolkit)を用いて O-Voxel データやレンダリングされた条件画像を準備し、各ステージの設定ファイル(JSON)を指定して train.py を実行します。前の段階で学習したチェックポイントを引き継ぎながら解像度を上げていく仕組みとなっています。

ライセンスについて

Pixal3Dの推論コードやモデルの利用には、Tencentによる独自のライセンス条項が適用されます。学術目的のみでの利用が可能であり、いかなる状況においても商業目的やプロダクション環境での利用は禁止されています。

また、ライセンスには「欧州連合(EU)圏内での使用を意図していない(IS NOT INTENDED FOR USE WITHIN THE EUROPEAN UNION)」という特記条項が含まれています。

利用の際は、必ず公式のLICENSEファイルをご確認ください。

公式リソース

論文やモデルのダウンロード、詳細なコードについては以下のリンクをご参照ください。

コメント

Translate »
タイトルとURLをコピーしました