Meta AI、画像セグメンテーションのための基礎モデル Segment Anything を発表

ニュース

2023年4月5日 – MetaAI は、画像セグメンテーションのための最初の基礎モデルに向けて Segment Anything を発表しました。

Segment Anything プロジェクト

セグメンテーションとは、どの画像ピクセルがオブジェクトに属するかを特定することであり、科学的画像の分析から写真の編集まで、広範なアプリケーションで使用されます。しかし、特定のタスクの正確なセグメンテーションモデルを作成するには、専門の技術者がAIトレーニングインフラストラクチャと精密に注釈付けられた大量のドメイン内データにアクセスする必要があります。

今日MetaAI は、Segment Anythingプロジェクトの一環として画像セグメンテーションのための新しいタスク、データセット、モデルをリリースすることで、セグメンテーションの民主化を目指すことを発表しました。

MetaAI は、一般的なSegment Anythingモデル(SAM)と、史上最大のセグメンテーションデータセットであるSegment Anything 1-Billionマスクデータセット(SA-1B)をリリースし、広範なアプリケーションを可能にし、コンピュータビジョンの基礎モデルに関するさらなる研究を促進することを目指しています。

Segment Anythingプロジェクトの中心には、画像セグメンテーションのために特定のタスクに適したモデル構築の専門知識、トレーニングコンピューティング、およびカスタムデータ注釈の必要性を減らすことがあります。このビジョンを実現するための MetaAI の目標は、自然言語処理モデルでプロンプトが使用されるのと同様に、多様なデータでトレーニングされ、特定のタスクに適応できるプロンプタブルモデルの基礎を構築することでした。しかし、このようなモデルをトレーニングするために必要なセグメンテーションデータは、インターネット上や他の場所では画像、動画、テキストとは異なり、容易に入手できません。したがって、Segment Anythingでは、一般的なプロンプタブルセグメンテーションモデルを同時に開発し、それを使用して前例のないスケールのセグメンテーションデータセットを作成することが目指されています。

SAM:セグメンテーションの一般化されたアプローチ

従来は、あらゆるセグメンテーションの問題を解決するために、2種類のアプローチががありました。1つ目は、対話型セグメンテーションで、どのようなオブジェクトクラスでもセグメンテーションできましたが、マスクを反復的に微調整するために人のガイドが必要でした。2つ目は、自動セグメンテーションで、事前に定義された特定のオブジェクトカテゴリ(例えば、猫や椅子)のセグメンテーションを可能にしましたが、セグメンテーションモデルをトレーニングするためには多量の手動注釈付きオブジェクト(例えば、数千、さらには数万のセグメンテーションされた猫の例)と、計算リソースと技術的専門知識が必要でした。どちらのアプローチも、完全に自動的な一般的なセグメンテーションアプローチを提供しませんでした。

SAMは、これら2つのアプローチを一般化したもので、対話型セグメンテーションと自動セグメンテーションの両方を簡単に実行できる単一のモデルです。Meta AIは、プロンプティング技術の進展からインスピレーションを得て、SAMをプロンプトに基づいて有効なセグメンテーションマスクを返すようにトレーニングしました。このモデルのプロンプト可能なインターフェイスにより、モデルのための適切なプロンプト(クリック、ボックス、テキストなど)を工学的に設計することで、幅広いセグメンテーションタスクが可能になります。

さらに、SAMは、このプロジェクトの一部として収集された10億以上の高品質のマスクから成る多様なデータセットでトレーニングされているため、追加のトレーニングを必要とせずに、トレーニング中に観察されたものを超えた新しいタイプのオブジェクトや画像にも汎用的に適用できます。この汎用性のある能力により、自分自身のセグメンテーションデータを収集して、使用ケースに合わせてモデルを微調整する必要がなくなります。

これらの機能を合わせることで、SAMは、新しいタスクや新しいドメインにも汎用的に適用できるようになります。この柔軟性は、画像セグメンテーションでは初めてのことです。

SAMでは以下のことが可能です。

(1) SAMでは、ユーザーがクリックするだけで、あるいは対話的にポイントをクリックしてオブジェクトを含めたり除外したりすることで、オブジェクトを分割することができます。また、モデルにバウンディングボックスを表示させることも可能です。

(2) SAMは、セグメンテーションされるオブジェクトに関する曖昧さに直面した場合、複数の有効なマスクを出力することができます。これは、実世界でセグメンテーションを解決するために重要かつ必要な能力です。

(3) 画像中のすべてのオブジェクトを自動的に検出し、マスクすることができます。

(4) SAMは、画像埋め込みを事前に計算した後、任意のプロンプトに対してリアルタイムでセグメンテーションマスクを生成することができ、モデルとのリアルタイムなやり取りを可能にします。

SA-1Bはどのように作られたか

Meta AI

のモデルをトレーニングするために、大規模で多様なデータソースが必要でしたが、私たちの作業が始まったときには存在していませんでした。今日リリースするセグメンテーションデータセットは、これまでで圧倒的に最大のものです(圧倒的な規模です)。データは、SAMを使用して収集されました。特に、アノテーターはSAMを使用して画像を対話的に注釈し、その新しく注釈されたデータを使ってSAMを更新しました。このサイクルを何度も繰り返して、モデルとデータセットの両方を反復的に改善しました。

SAMを使用すると、新しいセグメンテーションマスクの収集がこれまで以上に迅速になりました。私たちのツールを使用すると、マスクの対話的な注釈には約14秒しかかかりません。マスクごとの注釈プロセスは、最速の注釈インターフェイスを使用して約7秒かかるバウンディングボックスの注釈に比べて2倍遅いだけです。以前の大規模セグメンテーションデータ収集の取り組みと比較すると、COCOの完全手動のポリゴンベースのマスク注釈よりも6.5倍速く、以前の最大のデータ注釈取り組みよりも2倍速いです。

しかしながら、対話的にマスクを注釈することに頼るだけでは、10億マスクのデータセットを作成するには不十分だったため、Meta AIは、SA-1Bデータセットを作成するためのデータエンジンを構築しました。このデータエンジンには、3つの「ギア」があります。最初のギアでは、先述のようにモデルが注釈者を支援します。2番目のギアは、完全に自動的な注釈と支援的な注釈を組み合わせたものであり、収集されるマスクの多様性を高めるのに役立ちます。最後のギアは完全に自動的なマスク作成であり、データセットをスケーリングすることができます。

最終的なデータセットには、約1100万枚のライセンス画像とプライバシー保護された画像から収集された11億枚以上のセグメンテーションマスクが含まれています。SA-1Bは既存のセグメンテーションデータセットの400倍のマスク数を持ち、人間の評価研究によって、マスクは高品質かつ多様性があり、場合によっては以前のはるかに小さい完全に手動で注釈されたデータセットのマスクとも同等の品質であることが確認されています。

SA-1Bの画像は、多数の国々からの写真提供会社を通じて収集されました。これにより、地理的な地域や所得水準の多様なセットが網羅されています。特定の地理的な地域がまだ十分に表現されていないことは認識されていますが、SA-1Bは、従来のセグメンテーションデータセットよりも、すべての地域にわたって全体的に表現が優れています。

さらに、認識される性別の表示、認識される肌の色、認識される年齢層にわたって、モデルの潜在的なバイアスを分析したところ、SAMが異なるグループ間で類似したパフォーマンスを示すことがわかりました。これらを合わせることで、研究が実際のユースケースでより公平に使用されるようになることが期待されています。

SA-1Bは、このの研究を可能にしましたが、他の研究者が画像分割のための基礎モデルを訓練することも可能です。さらに、このデータが、各マスクに関連するテキスト説明などの注釈を追加した新しいデータセットの基礎となることも期待されています。

今後の展開について

Meta AIは、

研究成果とデータセットを共有することで、セグメンテーションやより一般的な画像・ビデオ理解の研究をさらに加速することを期待しています。プロンプト可能なセグメンテーションモデルは、より大きなシステムの一部としてセグメンテーションタスクを実行することができます。

将来的には、SAMは、あらゆる画像からあらゆるオブジェクトを見つけ出し、セグメンテーションすることを必要とする多くの領域のアプリケーションを支援するために使用される可能性があります。例として以下が挙げられています。

  • AI研究コミュニティなどでは、SAMは、、ウェブページの視覚とテキストの両方のコンテンツを理解するなど、より一般的なマルチモーダルな世界理解のための大規模なAIシステムの構成要素になる可能性があります。
  • AR/VRの分野では、ユーザーの視線に基づいてオブジェクトを選択し、それを3Dに「リフティング」することが可能になります。
  • コンテンツ制作者にとっては、コラージュやビデオ編集のための画像領域の抽出など、クリエイティブなアプリケーションを改善することができます。
  • 地球や宇宙で起こる自然現象の科学的な研究を支援するために、動物や物体の位置を特定し、ビデオで追跡することも可能です。
  • SAMを利用してARメガネで日用品を識別し、ユーザーに注意喚起や指示を促すことができるようになるかもしれません。
  • 農業分野での農家の支援や生物学者の研究支援など、幅広い領域に影響を与える可能性があります。

そして、今後の展望を見据えると、ピクセルレベルでの画像理解と高次元の視覚的コンテンツの意味理解との間により密接な関係が生まれ、より強力なAIシステムが実現されることが期待されています。

デモとダウンロード

SA-1Bデータセットは研究目的で利用可能であり、Segment Anythingモデルは許容可能なオープンライセンス(Apache 2.0)の下で利用可能です。


より詳しい情報は以下の記事をご覧ください。

Introducing Segment Anything: Working toward the first foundation model for image segmentation (facebook.com)

コメント

Translate »
タイトルとURLをコピーしました