ad
ad

Tripo AI、多様なモデルに対応するユニバーサル自動リギングフレームワークなど3つのオープンソースプロジェクトを発表!

CGソフト

2025年4月27日(現地時間)- Tripo AI(の親会社であるVAST)は、画像から3Dモデルを生成する「TripoSG」や「TripoSF (VAE)」といったオープンソースプロジェクトのリリースに続き、新たな3つのオープンソースプロジェクトを発表しました。

これには2つの論文とTripoSGをベースとしたデモが含まれ、5月初旬に予定されているTripo Studioの大型アップデートにも取り入れられる予定となっています。

発表されたプロジェクトは以下の通りです。

UniRig: 多様なモデルに対応するユニバーサル自動リギングフレームワーク

UniRigは、人間、動物、ファンタジーキャラクター、さらには無機質な構造物まで、多種多様な3Dモデルの高品質なリギング(3Dモデルに骨格を設定し、動かせるようにするプロセス)を自動行うこことができるフレームワークです。

このプロジェクトはVASTと清華大学によって共同開発され、「スケルトンツリートークン化(Skeleton Tree Tokenization)」や「ボーンポイントクロスアテンション(Bone-Point Cross Attention)」といった革新的な技術が採用されています。これにより、複雑なモデル構造にも対応し、効率的で高品質なリギングを実現します。

■技術的な特徴

  • 大規模自己回帰モデル: 言語や画像生成と同様のアプローチで、3Dスケルトンの構造を関節ごとに逐次的に予測し、トポロジー的に妥当なスケルトン生成を保証します。
  • スケルトンツリートークン化 (Skeleton Tree Tokenization): 階層的なスケルトン構造(関節座標、親子関係、骨のセマンティクス)をTransformerに適した線形シーケンスへと効率的にエンコードする独自の手法です。
  • 正確なスキニング): 有効なスケルトンが予測されると、UniRig はBone-Point Cross Attentionメカニズムを用いて頂点ごとのスキニングウェイトを予測します。このモジュールは、メッシュとスケルトンの幾何学的特徴を取り込み、各ボーンが周囲のメッシュ表面に及ぼす複雑な影響を効果的に捉えます。さらに、測地線距離情報によって空間認識能力が向上します。
  • ボーン固有属性の予測: スプリングボーンの剛性や重力の影響といった属性を予測し、より物理的に妥当な二次的な動きを可能にします。
  • Rig-XLデータセット: 14,000以上の多様なリグ付き3Dモデルを含む大規模データセットで、モデルの汎用性を高めるためのトレーニングに使用されます。
  • 最先端のパフォーマンス:UniRigは、自動リギングの分野で最先端の性能を達成しており、既存の手法と比較してリギング精度とモーション精度を大幅に改善しました。幅広いカテゴリのモデルに対して堅牢なパフォーマンスを発揮し、実用的な推論時間(1~5秒)を実現しています。

■リソース

HoloPart: 3Dモデルをインテリジェントに分解

HoloPartは、3Dモデルを意味的に明確なパーツへと完全に分解するインテリジェントな技術です。これにより、パーツごとの編集、マテリアル(質感)の割り当て、アニメーション用アセットの準備といった作業が、従来よりもはるかに迅速かつ容易になります。

VASTと香港大学(HKU)によって開発されたこの技術は、高度な「3Dパーツアモーダルセグメンテーション(3D Part Amodal Segmentation)」に基づいています。

3Dモデルの編集は、パーツが結合されていたり欠落していたり​​すると難しくなります。HoloPartは、3Dパーツアモーダルセグメンテーションでこの問題を解決します。隠れたパーツを再構築することで、モデルの調整、テクスチャリング、リギングを簡単に行うことができます。

■技術的な特徴

  • 3Dパーツアモーダルセグメンテーション: 隠れた部分も含めて、3D形状を完全で意味的に意味のあるパーツに分解する新しいタスクです。
  • 拡散トランスフォーマーアーキテクチャ: 強力な生成モデルであり、TripoSG基盤モデルの能力を活用して、3Dジオメトリへの深い理解に基づきパーツを生成します。
  • デュアルアテンションメカニズム:
    • ローカルアテンション: 入力された表面パッチの微細なジオメトリ詳細に焦点を当て、生成パーツと見える部分のシームレスな統合を図ります。
    • コンテキスト認識アテンション: パーツが配置されている全体の形状を考慮し、全体的な形状の一貫性や意味的な妥当性を保ちます。
  • TripoSG基盤モデルの活用: 大規模データセットでの事前学習とパーツデータでのファインチューニングにより獲得した、3Dジオメトリへの深い理解をパーツ生成に活かします。

HoloPartによって完全なパーツが生成されることで、直感的な編集、容易なマテリアル割り当て、アニメーション対応アセットの生成、高度なジオメトリ処理、パーツ単位での生成モデルの基盤構築、ジオメトリ超解像など、多くの応用が可能になります。

リソース

Tripo Doodle: スケッチからリアルタイムで3Dモデルを生成

Tripo Doodleは、簡単な2Dスケッチとテキストプロンプト(指示文)から、詳細な3Dモデルをリアルタイムで生成できるクリエイティブツールです。SIGGRAPHAsia 2024に発表されたものですが、この度オープンソース化されたようです。

Tripo Doodleは、直感的で高速なインタラクティブインターフェースを備えており、アイデアを素早く形にし、試行錯誤を繰り返しながら創造的な作業を進めることができます。

このツールは、ゼロから構築されたものではなく、VASTの強力な基盤モデルである「TripoSG」をベースに、リアルタイムのインタラクティビティに特化して最適化されています。(なお、この機能は現時点ではTripo Studioには搭載されない予定です。)

■技術的な特徴

  • TripoSGベースモデル: 基盤となるエンジンは、画像から3D形状を生成するモデルであるTripoSGです。条件付け入力(ベースモデルでは通常は画像)から直接、高忠実度の3Dメッシュを生成できます。カスタムの変分オートエンコーダ(VAE)によって管理される精密な符号付き距離関数(SDF)表現を使用して、キュレーションされたデータでトレーニングされています。
  • マルチモーダル条件付け(スケッチ+テキスト): Tripo Doodleは、スケッチとテキストの両方の入力を同時に理解し統合するメカニズムを組み込むことで、TripoSGを強化しています。
    • スケッチガイダンス: 2Dの描画は強力な幾何学的制約を提供し、核となる形状、構造、ポーズを定義します。
    • テキストガイダンス: 自然言語のプロンプトは意味解釈を誘導し、オブジェクトの種類、スタイル、特定の機能(例:「ドラゴン」と追加すると、一般的なモンスタースケッチが変形する)に影響を与えます。
  • リアルタイム最適化(例:蒸留): インタラクティブな「お絵描き」体験に不可欠な、ほぼ瞬時の生成速度を実現するために、CFG蒸留などの技術が採用されています。より小さく最適化されたモデルが、大規模なTripoSGモデルの出力を再現するようにトレーニングされ、継続的なユーザー入力に基づくリアルタイム更新に適した迅速な推論を可能にします。

このプロジェクトはこちらのデモページで試してみることができます。

また、ローカルに展開するには、このスペースをクローンして環境を設定し、DISABLE_ZEROGPU=1で実行するだけとのことです。


TripoAI ウェブサイトへ

コメント

Translate »
タイトルとURLをコピーしました