2025年8月14日(現地時間)- Meta FAIR(Fundamental AI Research) は、汎用画像認識モデル「DINOv3」を発表しました。
SSLのみで学習した汎用ビジョンモデル「DINOv3」
自己教師あり学習(Self-Supervised Learning; SSL)は、人間によるラベル付けや監督なしでAIモデルが自律的に学習する手法として、近年の機械学習で広く採用されています。
大規模なテキストを使って事前学習を行い、汎用的な表現を獲得する大規模言語モデルは、その代表的な成功例です。一方で、コンピュータビジョンの分野では依然として、ウェブ上のキャプションなど人間が作成したメタデータへの依存が強く、進歩の速度は相対的に遅れていました。
そうした中、Metaは新たにDINOv3を発表しました。DINOv3はSSLのみで訓練された汎用型の最新コンピュータビジョンモデルで、高精細かつ高品質な画像特徴を生成。ひとつの「凍結」ビジョンバックボーン(学習済みで重みを固定した基盤モデル)を用いて、物体検出やセマンティックセグメンテーションといった複数の密な予測タスクで、従来の専用モデルを上回る成果を示しました。
この成果は、ラベル付きデータを必要としない革新的なSSL技術によって支えられています。学習コストを大幅に削減しながら、17億枚の画像と70億パラメータ規模まで訓練をスケールさせることを可能にしました。この手法により、注釈付けが難しい・高額・あるいは実質的に不可能なケースにも適用できます。実際に、衛星画像で事前学習したDINOv3のバックボーンは、樹冠高推定といった専門的なタスクでも優れた性能を発揮しています。
Metaは、DINOv3が既存のユースケースを加速させるだけでなく、新たな応用分野を切り拓くと考えています。これにより、ヘルスケア、環境モニタリング、自動運転、小売、製造など、幅広い産業で精度と効率を両立した大規模な視覚理解が可能になるとしています。
今回の発表では、MAXAR社の衛星画像で学習したモデルを含む複数のバックボーンが、商用利用可能なオープンソースとして提供されます。さらに、一部の下流タスク向け評価用ヘッドや、すぐに利用できるサンプルノートブックも公開され、コミュニティが成果を再現し、独自の開発を進めやすい環境が整えられています。
自己教師あり学習で実現する、次世代の汎用ビジョン活用
DINOv3は、自己教師あり学習(SSL)モデルが弱教師あり学習モデルを幅広いタスクで上回れることを、初めて実証し、新たなマイルストーンを達成しました。
これまでのDINOシリーズは、セグメンテーションや単眼深度推定といった密な予測タスクで大きなリードを築いてきましたが、DINOv3はその成果をさらに超えています。本モデルは、多くの画像分類ベンチマークでSigLIP 2やPerception Encoderといった最新かつ高性能なモデルに匹敵、もしくはそれ以上の性能を示しつつ、密な予測タスクではその差を大きく広げています。

DINOv3は、画期的なDINOアルゴリズムを基盤としており、メタデータ入力を必要とせず、従来手法と比べてごく一部の計算資源で学習を実行できます。それでも非常に強力なビジョン基盤モデルを提供します。
さらにDINOv3で導入された新たな改良によって、重みを凍結したままという厳しい制約下でも、物体検出などの競争力ある下流タスクで最先端の性能を達成しました。これにより、研究者や開発者はタスクごとにモデルをファインチューニングする必要がなくなり、より幅広く効率的な応用が可能になります。
また、DINOの手法は特定の画像モダリティに依存していないため、ウェブ画像以外の領域にも適用できます。アノテーションが極めて難しく、または高コストな分野にも有効です。
すでにDINOv2は、膨大なラベルなしデータを活用し、病理組織学、内視鏡検査、医用画像といった分野での診断・研究を支援してきました。衛星画像や航空写真では、データ量と複雑さのため手作業でのラベル付けは現実的ではありませんが、DINOv3により、こうした豊富なデータセットを使って単一のバックボーンを学習し、それを異なる種類の衛星画像にまたがって利用できるようになりました。これにより、環境モニタリング、都市計画、災害対応といった汎用的な応用が可能になります。
DINOv3はすでに現実世界で成果を上げています。世界資源研究所(WRI)は最新モデルを活用して森林破壊の監視や生態系回復の支援を行い、地域団体が脆弱な生態系を保護できるよう支援しています。WRIは衛星画像を解析し、影響を受けた地域での樹木の減少や土地利用の変化を検出しています。
さらに、DINOv3による精度向上は、生態系回復の成果を検証し、気候変動対策資金の支払いを自動化することで、取引コストを削減し、小規模かつ地域密着型の団体への資金提供を迅速化します。例えば、衛星画像と航空写真で学習したDINOv3は、DINOv2と比べてケニアのある地域における樹冠高測定の平均誤差を4.1メートルから1.2メートルへと大幅に低減しました。これにより、WRIは数千件規模の農家や自然保護プロジェクトをより効率的に支援できるようになっています。
WRIがDINOv3をどのように使用しているかについて詳しく読む
ファインチューニング不要でスケーラブルかつ効率的なビジュアルモデリング
DINOv3は、前世代のDINOv2に比べて7倍大きなモデルを、12倍の規模のデータセットで学習して構築されました。モデルの汎用性を示すため、15種類の多様なビジュアルタスクと60以上のベンチマークで評価を行っています。特に密な予測(dense prediction)を必要とするタスクにおいて、シーン構造や物理的関係の理解に優れた性能を発揮しています。
DINOv3が生成する高密度な特徴表現は、画像内の各ピクセルの属性を浮動小数点ベクトルとして表し、物体をより細かいパーツに分解して認識する能力を持っています。インスタンスやカテゴリをまたいだ一般化も可能で、この表現力により、最小限のアノテーションと軽量なアダプターだけで高精度な密予測を実現できます。また、より高度なデコーダーを使用することで、バックボーンのファインチューニングを行わずに、物体検出、セマンティックセグメンテーション、相対的深度推定といったコアタスクで最先端の性能を達成しています。
バックボーンをファインチューニングせずに最先端性能を実現できるため、単一のフォワードパスで複数のアプリケーションを同時に処理できます。これにより、推論コストをタスク間で共有でき、同時に多数の予測を必要とするエッジ環境では特に有効です。
NASAジェット推進研究所(JPL)はすでにDINOv2を用いて火星探査ロボットを開発し、限られた計算資源で複数のビジョンタスクを実行できることを実証していますが、DINOv3はこうした展開シナリオに理想的です。
幅広い展開に適したモデルファミリー
DINOv3は70億パラメータ規模までスケール可能で、自己教師あり学習(SSL)の潜在能力を最大限に引き出すことを証明しました。ただし、このサイズは一部のアプリケーションには不向きであるため、Metaは推論負荷の異なる多様な用途に対応するモデルファミリーを構築。ViT-7Bモデルを蒸留し、小型ながら高性能なViT-BやViT-Lを提供しています。また、ViT-7Bから蒸留したConvNeXtアーキテクチャ(T、S、B、L)も用意され、計算制約に応じた選択が可能です。さらに、コミュニティがこの基盤の上に独自の開発を行えるよう、蒸留パイプラインも公開されています。
今後の展望
DINOとDINOv2は過去4年間で様々な業界に影響を与えており、MetaはDINOv3でその勢いを継続することを目指しています。初期のDINOv3パートナーは既に素晴らしい結果を共有しており、Metaはオープンソースコミュニティがこの高性能なモデルを使って新しい技術を開発することに期待を寄せています。同社は今後もパートナーと緊密に連携し、フィードバックを元にモデルの継続的な改善を行っていく方針とのことです。
DINOv3のリソース:
DINOv3: Self-supervised learning for vision at unprecedented scale
























コメント