2023年3月23日 – Intel Labs は、コンピュータビジョンの深度推定を改善するオープンソースAIモデル VI-Depth 1.0とMiDaS 3.1 についての発表を行いました。
深度推定は、ロボット工学、拡張現実(AR)、仮想現実(VR)の幅広いアプリケーションを作成するために必要な、難しいコンピュータビジョンのタスクです。既存のソリューションでは、距離を正しく推定することに苦労することが多く、ビジュアルナビゲーションに関しては、運動計画を立てたり障害物を回避したりするのに重要な要素となっています。Intel Labsの研究者は、単眼深度推定のための2つのAIモデル視覚的慣性深度推定(visual-inertial depth estimation)と相対深度推定(RDE – relative depth estimation)をリリースすることで、この問題に取り組んでいます。
MiDaS 3.1
2022年後半、Intel Labsは、コンピュータビジョンにおける単眼深度推定のためのオープンソースのディープラーニングモデルに新機能と改良を加え、MiDaS 3.1をリリースしました。
最新のRDEモデルであるMiDaSバージョン3.1は、1枚の画像のみを入力として堅牢な相対的深度を予測するものです。大規模かつ多様なデータセットで学習しているため、より幅広いタスクや環境で効率的に実行することができます。MiDaSの最新バージョンは、より大きなトレーニングセットとエンコーダバックボーンのアップデートにより、RDEのモデル精度が約30%向上しています。
MiDaSは多くのプロジェクトに組み込まれており、特にStable Diffusion 2.0では、入力画像の深度を推測し、テキストと深度情報の両方を使用して新しい画像を生成するdepth-to-image機能を実現しています。例えば、デジタルクリエーターのScottie Fox氏は、Stable DiffusionとMiDaSを組み合わせて、360度のVR環境(Blockade Labs)を作成しました。
この技術は、裁判における犯罪現場の再現、医療における治療環境、没入感のあるゲーム体験など、新たなバーチャルアプリケーションの実現につながる可能性もあるとされています。
VI-Depth
RDEは汎用性に優れ、有用ですが、スケール感がないため、マッピング、プランニング、ナビゲーション、物体認識、3D再構成、画像編集など、メートル単位の深度を必要とするダウンストリームタスクでの有用性は低下します。Intel Labsの研究者は、正確な深度推定を行う別のAIモデルであるVI-Depthをリリースすることで、この問題に取り組んでいます。
VI-Depthは、単眼深度推定と視覚慣性オドメトリ(VIO)を統合した視覚慣性深度推定パイプラインで、メトリックスケールで密な深度推定値を生成します。このアプローチにより、正確な深度推定が可能となり、シーン再構築、マッピング、オブジェクト操作に役立ちます。
慣性データを取り入れることで、スケールの曖昧さを解消することができます。ほとんどのモバイルデバイスには、すでに慣性計測ユニット(IMU)が搭載されています。Global alignmentは適切なグローバルスケールを決定、Dense Scale Alignment(SML)はローカルに動作し、正しいメトリックの深さに向かって領域を押し引きします。SMLネットワークは、エンコーダーのバックボーンとしてMiDaSを活用します。モジュール式パイプラインでは、VI-Depthは、IMUセンサー測定ユニットと並んで、データ駆動型の深度推定とMiDaS相対深度予測モデルを組み合わせています。データソースの組み合わせにより、VI-Depthは画像内の各ピクセルについて、より信頼性の高い密なメトリック深度を生成することができます。
ダウンロード
MiDaS 3.1とVI-Depth 1.0は、オープンソースのMITライセンスでGitHubで公開されています。
Intel Labs Advances Computer Vision Development with Two New AI Models
コメント