ads

インタラクティブなポイントベース操作で生成AIを制御することができる 『 DragGAN 』

ニュース

Google AR/VR  やMITなどのによる生成AIを制御する新しい方法に関する論文『Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold』の紹介です。

論文の概要

ユーザーのニーズを満たすビジュアルコンテンツの合成には、生成されるオブジェクトのポーズ、形状、表情、レイアウトを柔軟かつ正確に制御することが必要であることが多く、既存のアプローチでは、手動で注釈を付けた学習データや事前の3Dモデルによって生成的敵対ネットワーク(GAN)の制御性を得ているが、柔軟性、精度、汎用性に欠けることが多い。

本研究では、GANを制御する強力な方法として、図1に示すように、画像の任意の点を「ドラッグ」して、ユーザーと対話しながら目標点に正確に到達させるという、まだあまり知られていない方法を研究します。これを実現するために、我々はDragGANを提案します。DragGANは、以下の2つの主要コンポーネントから構成されています:

  1. ハンドルポイントを目標位置に移動させる特徴ベースの動作監視
  2. ハンドルポイントの位置を定位し続けるために識別可能なGAN特徴を活用する新しいポイントトラッキングのアプローチ

DragGANは、ピクセルの移動先を正確に制御して画像を変形させることができるため、動物、車、人間、風景など様々なカテゴリーのポーズ、形状、表情、レイアウトを操作することができます。これらの操作は、GANの学習された生成画像多様体上で行われるため、オクルージョンの幻覚や、物体の剛性に一貫して従う形状の変形など、困難なシナリオでもリアルな出力が得られる傾向にあります。定性的・定量的な比較の両方から、画像操作と点追跡のタスクにおいて、先行アプローチに対するDragGANの優位性が実証されています。また、GAN反転による実画像の操作についても紹介します。

AIの進化はほんとに速いですね。テキストだけでの制御はかなり難しいと思うので、このようなコントロールが可能となるのは生成AIをかなり実用的なものとするのではないでしょうか。実際にアプリでこのようなことができれば動画や画像編集のワークフローが大きく変わりそうです。この論文は SIGGRAPH 2023 に提出されているようです。

プロジェクトページ

githubページへ

 

コメント

Translate »
タイトルとURLをコピーしました