2021年11月22日(現地時間)NVIDIA Researchは、言葉に反応するようになった GauGAN 2のデモを公開しました。
GauGANについて
印象派の画家ポール・ゴーギャンにちなんで名付けられたGauGANは、シーンのレイアウトを描いたラベル付きスケッチであるセグメンテーションマップから、フォトリアリスティックな画像を作成することができます。
ペイントブラシやペイントバケットツールを使用して風景をデザインしたり、スタイル転送アルゴリズムにより、昼間の風景を夕日に、フォトリアリスティックな画像を絵画に変えるなどのフィルターをかけたりすることが可能です。
このテクノロジーを利用したものとして、Nvidiaは NVIDIA Canvas アプリをリリースしています。
テキストから画像への変換機能が追加
新しいGauGAN2では、テキストから画像への変換機能が追加されました。
「Sunset at a beach」 のようなフレーズを入力するだけで、AIがリアルタイムにシーンを生成します。さらに「sunset at a rocky beach」などの形容詞を加えたり、「sunset」を「afternoon」や「rainy day」に変えたりすると、生成的逆説ネットワーク( generative adversarial networks)に基づくディープラーニングモデルが瞬時に画像を修正します。
GauGAN2のAIモデルは,世界で最も強力なスーパーコンピュータ10台のうちの1台であるNVIDIA DGX SuperPOD system を搭載した「NVIDIA Selene supercomputer」を用いて,1,000万枚の高品質な風景画像を用いて学習されました。研究者は、”winter”、”foggy”、”rainbow “など、言葉とそれに対応するビジュアルの関連性を学習するニューラルネットワークを使用したとのことです。
今回利用可能になったGauGAN2デモは、テキスト、セグメンテーションマッピング、スケッチ、スタイルといった複数の機能を単一のGANフレームワーク内で組み合わせた最初のデモのひとつです。テキストから画像への変換や、マップから画像への変換に特化した最先端のモデルと比較して 、GauGAN2のニューラルネットワークは、より多様で高品質な画像を生成するとされています。
新しいGauGAN2のテキストから画像への変換機能は、こちらのデモページで体験することができます。
‘Paint Me a Picture’: NVIDIA Research Shows GauGAN AI Art Demo Now Responds to Words
コメント