2024年6月17日(現地時間)- Nvidia は、シアトルで開催されるComputer Vision and Pattern Recognition (CVPR) カンファレンスで紹介するプロジェクトを発表しました。
NVIDIAの研究者は、急速に進歩するビジュアル生成AI分野の最前線に立ち、画像、動画、3D環境を作成・解釈する新しい技術を開発しています。
6月17日から21日までシアトルで開催されるComputer Vision and Pattern Recognition (CVPR) カンファレンスでは、これらの50以上のプロジェクトが紹介されます。その中で、拡散モデルのトレーニングダイナミクスに関する論文と、自律走行車用の高精細マップに関する論文の2つが、CVPRの最優秀論文賞の最終選考に残っています。また、NVIDIAは、CVPR Autonomous Grand ChallengeのEnd-to-End Driving at Scaleトラックの勝者でもあり、包括的な自動運転モデルのための生成AIの利用を実証する重要なマイルストーンとなりました。また、この受賞エントリーは、世界中の450以上のエントリーを抑え、CVPRのInnovation Awardも受賞しています。
CVPRにおけるNVIDIAの研究には、特定の物体や文字を描写するために簡単にカスタマイズできるテキストから画像へのモデル、物体のポーズ推定のための新しいモデル、ニューラルラディエンスフィールド(NeRF)を編集する技術、ミームを理解できる視覚言語モデルなどが含まれます。その他の論文では、自動車、ヘルスケア、ロボット工学を含む産業分野別のイノベーションが紹介されています。
さらに、Nvidia は、 NVIDIA Omniverse Cloud Sensor RTXも発表しました。NVIDIA Omniverse Cloud Sensor RTXは、物理的に正確なセンサーシミュレーションを可能にするマイクロサービスのセットで、あらゆる種類の完全自律型マシンの開発を加速するものです。
以下では、いくつかの研究を紹介したいと思います。
JeDi
テキストプロンプトに基づいて画像を生成する最も一般的な手法である拡散モデルを利用するクリエイターは、特定のキャラクターやオブジェクトを念頭に置いていることが多いです。例えば、ネズミのアニメーションを中心としたストーリーボードを開発していたり、特定のおもちゃの広告キャンペーンをブレインストーミングしていたりです。
これまでの研究で、このようなクリエイターは、ユーザーがカスタムデータセットでモデルを訓練するファインチューニングを使って、拡散モデルの出力をパーソナライズし、特定の対象に焦点を当てることができるようになったが、このプロセスは時間がかかり、一般ユーザーにはアクセスしにくいです。研究チームは、このモデルが最先端の品質を達成し、既存の微調整ベースおよび微調整なしの手法を大幅に上回ることを発見しました。
Johns Hopkins University、Toyota Technological Institute at Chicago、NVIDIAの研究者による論文「JeDi: Joint-image Diffusion Models for Finetuning-free Personalized Text-to-image Generation」は、参照画像を使って数秒以内に拡散モデルの出力を簡単にパーソナライズできる新しい手法を提案しています。研究チームは、このモデルが最先端の品質を達成し、既存の微調整ベースおよび微調整なしの手法を大幅に上回ることを発見しました。
JeDiはまた、 retrieval-augmented generation,(RAG)と組み合わせることで、ブランドの製品カタログのようなデータベースに特化したビジュアルを生成することもできます。
FoundationPose
は、オブジェクトのポーズ推定のための基礎モデルです、 オブジェクトのポーズ推定とトラッキングのための基礎モデルで、推論中に新しいオブジェクトに即座に適用することができます。
このモデルは、オブジェクトのポーズ推定に関する一般的なベンチマークで新記録を樹立し、オブジェクトの形状を理解するために、小さな参照画像セットまたはオブジェクトの3D表現のいずれかを使用します。そして、照明条件が悪かったり、視覚的な障害物がある複雑なシーンであっても、その物体が映像の中で3D的にどのように動き、回転するかを特定し、追跡することが可能です。
FoundationPoseは産業用アプリケーションで、自律型ロボットが対話する物体を識別・追跡するのに役立つと考えられています。また、AIモデルを使用してライブシーンにビジュアルをオーバーレイする拡張現実アプリケーションにも使用できます。
NeRFDeformer
NeRFは、異なる位置から撮影された一連の2D画像に基づいて3DシーンをレンダリングできるAIモデルで す。ロボット工学のような分野では、NeRFを使用して、散らかった部屋や工事現場のような複雑な現実世界のシーンの没入型3Dレンダリングを生成することができる。しかし、何らかの変更を加えるには、開発者が手動でシーンがどのように変化したかを定義するか、あるいはNeRFを完全に作り直す必要があります。
今回、University of Illinois Urbana-Champaign とNVIDIAの研究者は、NeRFDeformerによってこのプロセスを簡略化しました。CVPRで発表されたこの方法は、1枚のRGB-D画像(通常の写真と、シーン内の各オブジェクトがカメラからどの程度離れているかをキャプチャする深度マップの組み合わせ)を使用して、既存のNeRFをうまく変換することができます。
VILA
NVIDIAとMIT(マサチューセッツ工科大学)のCVPRの共同研究は、動画、画像、テキストを処理できる生成AIモデルである視覚言語モデルの最先端の研究を進めています。
このグループは、オープンソースの視覚言語モデルファミリーであるVILAを開発しました。VILAは、AIモデルが画像に関する質問にどの程度答えるかをテストする主要なベンチマークにおいて、従来のニューラルネットワークを上回る性能を発揮します。VILA独自の事前学習プロセスにより、世界に関する知識の強化、より強力な文脈内学習、複数の画像にまたがって推論する能力など、モデルの新たな能力が引き出されました。
VILAはミームを理解し、複数の画像やビデオフレームに基づいて推論することができます。VILAモデルファミリーは、NVIDIA TensorRT-LLMオープンソースライブラリを使用して推論用に最適化することができ、データセンター、ワークステーション、さらにはエッジデバイスのNVIDIA GPU上に展開することが可能となっています。
VILAについての詳細は、NVIDIAテクニカルブログとGitHubをご覧ください。
その他
以上がNvidia のブログで紹介されていたものですが、他にも以下のような多くの研究が行われています。
- Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models
- What You See Is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs
- GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning
- HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data
- NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis
- Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer
- Breathing Life Into Sketches Using Text-to-Video Priors
- Dream-in-4D: A Unified Approach for Text- and Image-guided 4D Scene Generation
- COLMAP-Free 3D Gaussian Splatting
- などなど
その他のCVPRのでのNVIDIA Research の発表はこちらから
Seamless in Seattle: NVIDIA Research Showcases Advancements in Visual Generative AI at CVPR
コメント