Meta、写真1枚から高精度な3Dモデルや人体を生成する「SAM 3D」を発表!

ニュース

2025年11月19日(現地時間) – Metaは、画像セグメンテーションモデル「SAM(Segment Anything Model)」シリーズの新たな展開として、2D画像認識を3D空間へと拡張した「SAM 3D」を発表しました。

SAM 3Dとは

SAM 3Dとは、物理世界の複雑さや豊かさに対応するために、大規模な実世界データを活用して開発された新しい技術です。

静止した2D画像から詳細な3D再構築を行うことを目的としており、堅牢で高精度なパフォーマンスを発揮します。

Introducing SAM 3D: a New Standard for 3D Object & Human Reconstruction from a Single Image

この技術には、以下の2つの最先端モデルが導入されています。

  • SAM 3D Objects:オブジェクトやシーン全体を再構築するモデル
  • SAM 3D Body:人体の姿勢や形状推定に特化したモデル

両モデルとも、2D画像を精緻な3D表現へと変換することで、幅広い応用が可能になります。

「見えない部分」を補完

SAM 3Dの最大の特徴は、写真には写っていない「物体の裏側」や「隠れた部分」をも推論できる点にあります。AIは大量のデータ学習を通じて「常識的な3D構造」を理解しています。

例えば、「椅子には脚が4本あることが多い」「車の反対側は対称になっている」といった構造的特徴をAIが学習しており、ピクセル情報が存在しない部分も確率的に推論して補完することで、完全な3Dモデルを構築します。

💡 背景にある技術的課題

テキストや2D画像には豊富な学習データが存在しますが、「現実世界の物体の完全な3Dデータ」は比較的希少です。

  • 既存の3Dデータセットは、主に合成データ(Synthetic Data)で構成されています。
  • 現実の写真は「表面」の情報のみで、裏側の形状情報(Ground Truth)が欠如しているため、AIの学習には困難が伴います。

この「Sim-to-Real gap(シミュレーションと現実のギャップ)」への対応が、SAM 3D開発における主要な課題でした。

SAM 3D Objects – 静止画像から 3D シーン内の仮想オブジェクトへ

SAM 3D Objectsは、1枚の自然画像から、堅牢かつ視覚的根拠に基づいた3D再構築とオブジェクトの姿勢推定を行う新しいアプローチです。

日常的な画像に含まれる小さな物体、間接的な視点、そして遮蔽(オクルージョン)に対しても、認識と文脈を活用することで、ピクセル情報だけでは不十分な場合でも再構築を可能にします。

ユーザーは画像から任意の物体を選ぶだけで、即座にポーズ付きの3Dモデルを生成できます。生成されたモデルは、再構築されたシーン内で個別に操作したり、カメラ視点を自由に切り替えて観察することが可能です。

従来の課題と技術的革新

従来の3Dモデルは、テキストや2D画像に比べて正解データが桁違いに少なく、孤立した合成アセットに依存していました。そのため、背景が単純な環境でしか機能せず、日常的な複雑なシーンへの適用が困難でした

SAM 3D Objectsは、この「物理世界の3Dデータ不足」という壁を突破するために、強力なデータアノテーションエンジンと新しい多段階学習手法を導入しました。これは大規模言語モデル(LLM)で確立された学習パラダイムを3D認識に応用したものです。

 データ収集と学習戦略

専門的な3Dアーティストによるデータ作成は高コストです。そこでMetaは、「メッシュの検証・評価は、作成よりも広く可能な作業である」という洞察に基づき、以下の戦略を採用しました。

  1. 評価ベースのアノテーション: 複数のモデルが生成した候補をアノテーターが評価・選択する仕組みを導入。難しい例のみを専門家に回すことで、効率的にデータの空白を埋めました。
  2. 大規模実世界データ: この仕組みにより、約100万枚の実世界画像に対して3D形状・テクスチャ・配置を付与し、約314万件のモデル生成メッシュを構築しました。
  3. 多段階学習: 「合成データによる事前学習(Pre-training)」と「自然画像による後学習(Alignment)」の二段階で学習を進め、シミュレーションと現実のギャップ(Sim-to-Real gap)を克服しました。

モデルの改善がデータエンジンを強化し、さらに良質なデータを生み出すという好循環(Positive Feedback Loop)が形成されています。

成果と評価

このアプローチにより、SAM 3D Objectsは多様な画像に対して高い汎化性能を示し、密なシーン再構築にも対応しました。

  • 高い評価: 人間による比較評価では、他の主要モデルに対して少なくとも5:1の優位性を獲得しています。
  • 高速処理: 拡散ショートカット(diffusion shortcuts)などの最適化により、数秒で高品質なテクスチャ付き再構築を生成可能です。
  • 応用: ロボティクス向けの3D認識モジュールなど、リアルタイム性が求められる分野への応用も期待されています。

SAM 3D Artist Objects (SA-3DAO) データセット:自然画像に基づく単一画像3D再構築のための、従来の合成ベンチマークを超える挑戦的な評価データセットです。

制限事項と今後の課題

SAM 3D Objectsは多様な画像に対応可能ですが、いくつかの技術的な限界も存在します。

  • 解像度: 出力解像度が中程度であるため、非常に細かい装飾などのディテールは再現されない場合があります。人物全体の再構築で歪みが生じることもあり、解像度の向上が次の課題です。
  • 物理的推論の限界: 現在は物体を1つずつ個別に予測する仕様であるため、人間が椅子に深く座り込んでいるような「物体同士が強く接触・干渉しているシーン」の物理的な推論は完全ではありません。

SAM 3D Body – 堅牢で正確、インタラクティブな3D人体再構成

SAM 3D Bodyは、1枚の画像から人間の姿勢や体形を正確に推定するために設計されたモデルです。複雑な状況――不自然なポーズ、画像の一部が隠れているケース、複数人が写っている場面――でも高い精度で推定できます。

さらに、セグメンテーションマスクや2Dキーポイントといったインタラクティブな入力に対応しており、ユーザーがモデルの予測を誘導・制御できるようになっています。

技術的特徴

  • MHRの採用: 新しいオープンソースの3Dメッシュ形式「Meta Momentum Human Rig(MHR)」を採用。骨格構造と軟組織の形状を分離することで、解釈性を高めています。
  • Transformerアーキテクチャ: Transformerベースのエンコーダ・デコーダ構造を拡張し、MHRメッシュのパラメータを予測します。
  • 高解像度エンコーダ: 画像エンコーダは複数入力設計により、身体各部の高解像度の特徴を捉えます。
  • 柔軟なデコーダ: メッシュデコーダはプロンプト入力に対応し、柔軟な予測を可能にしています。

データと学習戦略:数十億枚から800万枚へ

学習プロセスは以下の戦略に基づいています。

  1. 大規模データプール: 数十億枚規模の画像データから出発し、多様な写真コレクション、高品質なマルチカメラ映像、合成データを活用しました。
  2. 自動化された選定: 自動化されたデータエンジンで、珍しいポーズや特殊条件の画像を抽出しました。
  3. 高品質データセット: 約800万枚の高品質データセットを構築し、遮蔽・特殊な姿勢・多様な衣服に強いモデルを学習しました。

また、プロンプトベースのガイダンスと段階的な精緻化を組み合わせることで、柔軟なユーザー操作と画像内の視覚的根拠に基づく2D整合性を強化しています。

成果と評価

SAM 3D Bodyは、精度と堅牢性の両面で従来モデルを大きく上回り、複数の3Dベンチマークで優れた結果を示しています。

また、今回のリリースでは、MetaのCodec Avatarsなどの技術を支えるパラメトリック人体モデル「MHR」も商用利用可能なライセンスで公開しています。

制限事項と今後の課題

現在、SAM 3D Bodyはさらなる改善が必要な領域がいくつかあります。

  • 手のポーズ精度: 手のポーズ推定は全身推定の一部として大きく改善しましたが、専門的な手専用モデルには精度で及ばないため、さらなる改良が必要です。
  • 相互作用の考慮: 現状では個人単位で処理を行うため、複数人や人と物体の相互作用を考慮できません。今後は人間同士や環境との関係性を取り込むことが課題です。

 関連リソース・ダウンロード

このリリースの一環として、SAM 3Dのモデルチェックポイントと推論コードが公開されています。さらに、実世界の画像を対象とした視覚的根拠に基づく3D再構築を評価する新しいデータセット「SAM 3D Artist Objects(SA-3DAO)」が近日中に公開される予定です。このデータセットには多様な画像とオブジェクトメッシュのペアが含まれており、既存の3Dベンチマークと比較して高いリアリズムと難易度を備えています。

さらにMetaは、研究から製品、そしてPlaygroundへこれらの技術進歩を広く利用可能にするため、「Segment Anything Playground」を開設しました。ここでは誰もが自分の画像をアップロードし、最先端モデルによる3D再構築を実験できます(最新の基盤モデル「SAM 3」も利用可能です)。

Metaではこれらの成果を製品にも実装しています。Facebook Marketplaceの「View in Room」機能はSAM 3DとSAM 3によって支えられており、ユーザーは購入前に家具が自分の部屋にどうフィットするかをシミュレーションすることが可能です。

関連リソース・ダウンロード

公式の研究論文、コード、モデル、デモ体験へのアクセスは以下をご参照ください。

デモ体験 (Experience)

Segment Anything Playgroundで、ブラウザ上ですぐにモデルを試せます。


Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images

コメント

Translate »
タイトルとURLをコピーしました