Meta、動画と画像のオブジェクトセグメンテーションに対応した次世代の Segment Anything Model『SAM 2』を発表!

ニュース

2024年7月29日(現地時間)- Meta は、動画と画像のオブジェクトセグメンテーションに対応した次世代のMeta Segment Anything Model、『SAM 2』を発表しました。また、新しいモデルに加えて、コンピューター ビジョンの新しい研究を可能にするために、既存の最大の動画セグメンテーション データセットの 4.5 倍の大きさで、約 53 倍の注釈があるデータセット SA-V もリリースしています。

Segment Anything Model について

オブジェクトのセグメンテーション(画像中のピクセルのうち、興味のあるオブジェクトに対応するピクセルを特定すること)は、コンピュータビジョンの分野における基本的なタスクです。昨年発表されたMeta Segment Anything Model (SAM)は、画像におけるこのタスクのための基礎モデルを導入しました。

Meta AI、画像セグメンテーションのための基礎モデル Segment Anything を発表
2023年4月5日 - MetaAI は、画像セグメンテーションのための最初の基礎モデルに向けて Segment Anything を発表しました。 Segm...

SAMがリリースされる前は、特定の画像タスク用に正確なオブジェクトセグメンテーションモデルを作成するには、AIトレーニングインフラストラクチャと大量の注釈付きデータにアクセスできる技術専門家による高度に専門化された作業が必要でした。SAMはこの分野に革命をもたらし、プロンプト技術を通じて多種多様な実世界の画像セグメンテーションや即時使用のケースに適用できるようにしました。

SAM をリリースしてから 1 年が経ち、このモデルはさまざまな分野に大きな影響を与えています。Backdrop や Cutouts on Instagramなど、Meta のアプリ ファミリーで AI を活用した新しいエクスペリエンスを生み出し、科学、医学、その他多くの業界で多様なアプリケーションを促進しました。多くの大規模なデータ注釈プラットフォームは、画像のオブジェクトセグメンテーション注釈のデフォルトツールとしてSAMを統合し、人間による注釈作成に要する時間を大幅に節約しています。また、SAMはソナー画像のセグメント化サンゴ礁の分析、災害救援のための衛星画像解析、医療分野での細胞画像のセグメント化や皮膚がんの検出支援などに使用されています。

動画と画像のオブジェクトセグメンテーションに対応した『SAM 2』

この度発表された 最新モデルである Segment Anything Model 2 (SAM 2)は、画像や動画においてリアルタイムでプロンプトを表示可能なオブジェクトセグメンテーションのための初の統一モデルで、画像や動画アプリケーション全体でシームレスに使用することが可能です。

SAM 2は、画像セグメンテーションの精度で従来の能力を上回り、動画セグメンテーションの性能で既存の研究を上回ると同時に、対話に必要な時間を3分の1に短縮しています。また、あらゆる動画や 画像のあらゆるオブジェクトをセグメンテーションすることができる(一般にゼロショット汎化 と表現される)ため、カスタム適応なしに、以前に見たことのないビジュアルコンテンツに適用することが 可能です。

Metaは、オープンサイエンスアプローチに従い、SAM 2に関する研究をコミュニティと共有し、新たな機能やユースケースを探求できるようにしています。

この度、共有されたものは以下の通りです:

  • SAM 2のコードとウェイト:これは、寛容なApache 2.0ライセンスの下でオープンソース化されています。SAM 2の評価コードもBSD-3ライセンスで公開。
  • 既存の最大ビデオ セグメンテーション データセットより4.5倍多いビデオと53倍多い注釈を持つSA-Vデータセット:このリリースには、~51kの実世界の動画と600k以上のマスクレットが含まれています。SA-VをCC BY 4.0ライセンスで公開。
  • Web デモ:短い動画のリアルタイムインタラクティブセグメンテーションを可能にし、モデルの予測に基づいて動画効果を適用するWebデモ。

統一されたモデルとしてSAM 2は、画像とビデオデータ間でシームレスにユースケースをパワーアップし、これまで見たことのないビジュアル領域に拡張することができます。例えば様々な業界で以下のようなことが可能になります。

  • AI研究コミュニティやその他の人々にとって、SAM 2は、より一般的なマルチモーダルな世界理解のための、より大きなAIシステムの一部としてのコンポーネントとなることが可能です。
  • 産業界では、自律走行車に使用されるような次世代のコンピュータビジョンシステムを訓練するための、視覚データの高速アノテーションツールを実現することができます。
  • SAM 2の高速推論機能は、リアルタイムまたはライブビデオでオブジェクトを選択し、インタラクションする新しい方法を生み出す可能性があります。
  • コンテンツ制作者にとっては、SAM 2はビデオ編集における創造的なアプリケーションを可能にし、生成的なビデオモデルに制御性を加えることができる。
  • 科学や医学の研究を支援するために使用することもできます。例えば、ドローン映像で絶滅の危機に瀕している動物を追跡したり、医療処置中に腹腔鏡カメラで撮影した映像の領域を特定したりすることができます。

SAM 2の構築方法

SAMは画像内のオブジェクトが何であるかを一般的に学習することができました。しかし、画像は視覚セグメントが複雑な動きを示す動的な現実世界の静止したスナップショットに過ぎません。多くの重要な実世界のユースケースでは、混合現実、ロボティクス、自動運転車、ビデオ編集など、動画データにおける正確なオブジェクトセグメンテーションが必要です。Metaは、ユニバーサルセグメンテーションモデルが画像と動画の両方に適用できるべきだと考えています。

画像は、単一のフレームを持つ非常に短い動画と見なすことができます。この視点を採用し、画像と動画の入力をシームレスにサポートする統一モデルを開発しました。動画の処理で唯一異なるのは、モデルが現在のタイムステップでオブジェクトを正確にセグメント化するために、以前に処理された情報を記憶する必要があることです。

動画内のオブジェクトの成功したセグメンテーションには、空間と時間を超えてエンティティがどこにあるかを理解する必要があります。画像のセグメンテーションと比較して、動画には新たな課題が数多く存在します。オブジェクトの動き、変形、遮蔽、照明の変化などの要因は、フレームごとに大きく変わることがあります。また、カメラの動きやぼやけ、低解像度などにより、動画はしばしば画像よりも品質が低くなり、難易度が増します。このため、既存の動画セグメンテーションモデルやデータセットは、動画に対する「Segment Anything」機能を提供する点で不足していました。Metaはこれらの課題の多くを解決し、SAM 2と新しいSA-Vデータセットを構築しました。

SAMの手法と同様に、動画セグメンテーション機能を有効にするための研究には、新しいタスク、モデル、およびデータセットの設計が含まれます。まず、プロンプト可能な視覚セグメンテーションタスクを開発し、このタスクを実行できるモデル(SAM 2)を設計します。次に、SAM 2を使用して、既存のものよりも桁違いに大きい動画オブジェクトセグメンテーションデータセット(SA-V)を作成し、これを使用してSAM 2をトレーニングし、最先端のパフォーマンスを達成しました。

プロンプト可能な視覚的セグメンテーション

SAMは、ターゲットオブジェクトを定義し、セグメンテーションマスクを予測するために、画像中の点、ボックス、またはマスクを入力として受け取るように訓練されましたが、SAM 2では、予測される時空間マスク(すなわち「マスクレット(masklet)」)を定義するために、ビデオの任意のフレームで入力プロンプトを受け取るように訓練されています。

SAM 2は、入力プロンプトに基づいて現在のフレーム上のマスクの即時予測を行い、それを時間的に伝播させて、すべてのビデオフレームにわたってターゲットオブジェクトのマスクレットを生成します。初期マスクレットが予測されると、任意のフレームでSAM 2に追加のプロンプトを提供することにより、反復的に改良することができる。これは、望ましいマスクレットが得られるまで何度でも繰り返すことができます。

統合アーキテクチャによる画像と動画のセグメンテーション

SAM 2のアーキテクチャは、画像からビデオ領域へのSAMの一般化と見なすことができます。SAM 2は、クリック(ポジティブまたはネガティブ)、バウンディングボックス、またはマスクによってプロンプトを出力し、与えられたフレーム内のオブジェクトの範囲を定義することが可能です。軽量マスクデコーダは、現在のフレームの画像埋め込みと、エンコードされたプロンプトを受け取り、フレームのセグメンテーションマスクを出力。ビデオの設定では、SAM 2はこのマスク予測をすべてのビデオフレームに伝播し、マスクレットを生成します。その後、プロンプトを後続フレームに繰り返し追加して、マスクレット予測を改善することができます。

メモリメカニズムの導入

すべてのビデオフレームにわたって正確にマスクを予測するために、メモリエンコーダ、メモリバンク、およびメモリアテンションモジュールで構成されるメモリメカニズムが導入されました。画像に適用する場合、メモリコンポーネントは空であり、モデルはSAMのように動作する。動画に対しては、メモリコンポーネントは、オブジェクトとそのセッションにおける以前のユーザーインタラクションに関する情報を格納することができ、SAM 2が動画全体を通してマスクレット予測を生成することを可能にします。他のフレームで追加のプロンプトが提供された場合、SAM 2は保存されたオブジェクトのメモリコンテキストに基づいて、予測を効果的に修正することができます。

フレームのメモリは、現在のマスク予測に基づいてメモリエンコーダによって作成され、後続のフレームのセグメンテーションに使用するためにメモリバンクに配置されます。メモリバンクは、前のフレームからのメモリとプロンプトフレームのメモリの両方から構成されており、次のフレームをセグメンテーションする際に使用されます。メモリアテンション動作は、画像エンコーダからフレームごとの埋め込みを受け取り、それをメモリバンク上で条件付けして埋め込みを生成し、それをマスクデコーダに渡してそのフレームのマスク予測を生成します。これを以降のすべてのフレームで繰り返します。

Meta は、SAMのビデオ領域への自然な一般化であるストリーミングアーキテクチャを採用し、ビデオフレームを一度に1つずつ処理し、セグメント化されたオブジェクトに関する情報をメモリに格納しました。新たに処理される各フレームにおいて、SAM 2はメモリアテンションモジュールを使用して、ターゲットオブジェクトの以前の記憶にアテンションします。この設計により、任意の長さの動画をリアルタイムで処理することが可能になりました。これは、SA-Vデータセットを収集する際のアノテーション効率だけでなく、実世界での応用(例えばロボット工学)においても重要です。

動画での曖昧さへの対応

SAMでは、画像内でセグメンテーションされるオブジェクトがあいまいな場合に、複数の有効なマスクを出力する機能が導入されました。たとえば、人が自転車のタイヤをクリックした場合、モデルはこのクリックをタイヤのみを指しているのか、自転車全体を指しているのか を解釈し、複数の予測を出力することができます。動画では、この曖昧さが動画フレームをまたいで広がる可能性があります。例えば、あるフレームでタイヤだけが見えている場合、タイヤへのクリックはタイヤだけに関連するかもしれませんが、その後のフレームで自転車の多くの部分が見えるようになると、このクリックは自転車全体を意図したものである可能性もでてきます。この曖昧さを処理するために、SAM 2は動画の各ステップで複数のマスクを作成します。さらにプロンプトを表示しても曖昧さが解消されない場合、モデルは最も信頼性の高いマスクを選択し、動画内でさらに伝播させます。

画像セグメンテーションタスクでは、肯定的なプロンプトが与えられたフレームには、セグメンテーショ ンする有効なオブジェクトが常に存在します。動画像では、例えばオブジェクトが視界から隠れたり消えたりすることで、特定のフレームに有効なオブジェクトが存在しない可能性があります。この新しい出力モードを考慮するために、我々は、注目オブジェクトが現在のフレームに存在するかどうかを予測する追加モデル出力(「occlusion head」)を追加しています。これにより、SAM 2はオクルージョンを効果的に扱うことができます。。

SA-V: 最大のビデオセグメンテーションデータセットの構築

「segment anything 」機能を動画に拡張する際の課題の1つは、モデルを学習するためのアノテーションデータが限られていることです。現在のビデオセグメンテーションデータセットは小さく、多様なオブジェクトを十分にカバーしていません。既存のデータセットのアノテーション(注釈)は、通常、オブジェクト全体(例:人物)をカバーしていますが、オブジェクトの一部(例:人物の上着、帽子、靴)をカバーしておらず、データセットは、人物、車両、動物などの特定のオブジェクトクラスが中心であることが多いです。

大規模かつ多様なビデオセグメンテーションデータセットを収集するために、Metaはデータエンジンを構築し、人間のアノテーターとのインタラクティブなモデルインザループ(model-in-the-loop)のセットアップを活用しました。アノテーターはSAM 2を使用して動画中のマスクレットに対話的にアノテーションを行い、新たにアノテーションされたデータでSAM 2を順番に更新しました。このサイクルを何度も繰り返し、モデルとデータセットの両方を反復的に改善しました。SAMと同様に、我々はアノテーションされたマスクレットに意味的制約を課さず、オブジェクト全体(例えば人物)とオブジェクトの部分(例えば人物の帽子)の両方にフォーカスを当てています。

SAM 2では、新しいビデオオブジェクトセグメンテーションマスクの収集がこれまで以上に高速になります。我々のツールとSAM 2をループで使用したアノテーションは、フレームごとにSAMを使用するよりも約8.4倍速く、またSAMと既製のトラッカーを組み合わせるよりも大幅に速くなります。

Meta がリリースしたSA-Vデータセットは、既存のビデオオブジェクトセグメンテーションデータセットと比較して、1桁以上のアノテーションと約4.5倍のビデオを含んでいます。

SA-V datasetのハイライトは以下の通り:

  • 約51,000本の動画に600,000以上のマスクレットアノテーション。
  • 47か国にわたって収集された地理的に多様な現実世界のシナリオを特徴とする動画。
  • 全体のオブジェクト、オブジェクトの部分、およびオブジェクトが遮蔽されたり、消えたり、再出現したりする困難なインスタンスをカバーするアノテーション。

結果

画像と動画のセグメンテーションのための統一モデルを作成するために、Metaは画像を1フレームを持つ動画として扱い、画像データと動画データに対してSAM 2を共同でトレーニングを行いました。これには、Segment Anythingプロジェクトの一環として昨年リリースされたSA-1B画像データセット、SA-Vデータセット、および追加の社内ライセンスビデオデータセットが活用されました。

研究論文で詳細に説明されている主要なハイライトは次のとおりです:

  • SAM 2は、17のゼロショット動画データセットにおいて、インタラクティブな動画セグメンテーションにおいて従来のアプローチを大幅に上回り、人間がループ内で行うインタラクションを約3倍少なくすることができた。
  • SAM 2は、23のデータセットのゼロショットベンチマークでSAMを上回り、6倍高速。
  • SAM 2は、既存のビデオオブジェクトセグメンテーションベンチマーク(DAVIS、MOSE、LVOS、YouTube-VOS)において、先行する最先端モデルと比較して優れている。
  • SAM 2による推論は、約44フレーム/秒でリアルタイムに感じられる。
  • 動画セグメンテーションのアノテーションをループ内で行うSAM 2は、SAMを使用した手動によるフレームごとのアノテーションよりも8.4倍高速。

誰にとってもうまく機能するAI体験を構築するよう努力することが重要です。SAM 2の公平性を測定するために、Metaは特定の人口統計学的グループにわたってモデルのパフォーマンスに関する評価を実施しました。その結果、ビデオのセグメンテーションにおいて、性別によるモデルの性能差は最小であり、評価した3つの年齢層(18歳~25歳、26歳~50歳、50歳以上)の間でほとんど差がないことがわかりました。

制限事項

SAM 2は、画像や短い動画内のオブジェクトのセグメンテーションにおいて強力なパフォーマンスを示しますが、モデルのパフォーマンスは、特に難しいではさらに改善の余地があるとあされています。

  • 視点の大きな変化、長時間の遮蔽、混雑したシーン、または長時間の動画で、オブジェクトを見失うことがあります。
    SAM 2は、カメラの視点が急激に変化したとき、長いオクルージョンの後、混雑したシーン、または長時間の動画において、物体を見失うことがあります。この問題は、モデルをインタラクティブに設計し、任意のフレームで修正クリックによる手動介入を可能にすることで、ターゲットオブジェクトを回復できるようにすることで、実際に軽減されます。

  • 混雑したシーンでは、複数の似たオブジェクトを混同することがあります。
    ターゲットオブジェクトが1つのフレームにしか指定されていない場合、SAM 2はオブジェクトを混同してしまい、上のビデオの馬のように、ターゲットを正しくセグメンテーションできないことがあります。多くの場合、将来のフレームで絞り込みプロンプトを追加することで、この問題は完全に解決され、ビデオ全体を通して正しいマスクレットを取得することができます。
  • 複数の個別オブジェクトを同時にセグメント化する場合、モデルの効率が大幅に低下します。
    SAM 2 は、複数の個々のオブジェクトを同時にセグメンテーションする機能をサポートしていますが、モデルの効率はかなり低下します。SAM 2 は各オブジェクトを個別に処理し、オブジェクト間の通信を行わず、共有されたフレーム単位の埋め込みのみを利用します。これはモデルを単純化する一方で、共有されたオブジェクトレベルのコンテキスト情報を取り入れることで、効率を向上させることができます。

  • 高速で移動する複雑なオブジェクトの細部を見逃すことがあります。
    複雑な高速移動物体では、SAM 2は細かいディテールを見逃すことがあり、予測がフレーム間で不安定になることがあります(上の自転車のビデオで示されているように)。同じフレームまたは追加のフレームで予測を改良するためにさらにプロンプトを追加しても、この問題は部分的にしか軽減されません。 学習中、フレーム間で予測にズレが生じた場合、モデルの予測にペナルティを課さないため、時間的な滑らかさは保証されません。この機能を改善することで、細かい構造の詳細な位置特定を必要とする実世界のアプリケーションを容易にすることができます。

Metaのデータエンジンはループ内でSAM 2を使用し、自動マスクレット生成において大きな進歩を遂げましたが、マスクレット品質の検証や補正が必要なフレームの選択など、いくつかのステップではまだ人間のアノテーターに依存しています。今後の開発としては、データアノテーションプロセスをさらに自動化し、効率を高めることが考えられます。

Metaは、「この研究をさらに推進するために、まだ多くの作業が残っています。AIコミュニティがSAM 2と提供されたリソースを活用して構築し、私たちと共にオープンサイエンスを加速し、人々や社会に利益をもたらす強力な新しい体験やユースケースを創出することを期待しています。」としています。

SAM 2の活用

公開デモで使用されるMeta FAIRのモデルの多くはAmazon SageMaker上でホストされていますが、SAM 2モデルのセッションベースの要件は、AWS AIインフラ上で可能と考えられていた範囲を超えるものでした。Amazon SageMakerの高度なモデルデプロイメントと管理された推論機能のおかげで、SAM 2のリリースが可能になり、最先端のAIモデルとユニークなAIデモ体験の構築に集中することが可能になりました。

将来的には、SAM 2はより大きなAIシステムの一部として使用され、ARメガネを介して日常品を識別し、ユーザーにリマインダーや指示を促すことができるようになるかもしれません。

Metaは、AIコミュニティにモデルをダウンロードし、データセットを使用し、デモを試すことをおすすめしています。「この研究を共有することで、普遍的なビデオや画像のセグメンテーションと関連する知覚タスクの進歩の加速に貢献したいと考えています。この研究をコミュニティに公開することで、新たな洞察や有用な体験が生まれることを楽しみにしています。」としています。


Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images

コメント

Translate »
タイトルとURLをコピーしました