テキストや簡単な文章から画像を作成することができる GauGAN2 デモが利用可能に

2021年11月22日（現地時間）NVIDIA Researchは、言葉に反応するようになった GauGAN 2のデモを公開しました。

GauGANについて
テキストから画像への変換機能が追加

GauGANについて

印象派の画家ポール・ゴーギャンにちなんで名付けられたGauGANは、シーンのレイアウトを描いたラベル付きスケッチであるセグメンテーションマップから、フォトリアリスティックな画像を作成することができます。

ペイントブラシやペイントバケットツールを使用して風景をデザインしたり、スタイル転送アルゴリズムにより、昼間の風景を夕日に、フォトリアリスティックな画像を絵画に変えるなどのフィルターをかけたりすることが可能です。

このテクノロジーを利用したものとして、Nvidiaは NVIDIA Canvas アプリをリリースしています。

NVIDIA Canvas ベータ版がアップデート、カスタムスタイル機能が追加

2021年9月21日 Nvidiaは、AIを使用して大まかなスケッチを風景に変えることができる同社のソフトウェア「NVIDIA Canvas」のアップデートを...

テキストから画像への変換機能が追加

新しいGauGAN2では、テキストから画像への変換機能が追加されました。

「Sunset at a beach」のようなフレーズを入力するだけで、AIがリアルタイムにシーンを生成します。さらに「sunset at a rocky beach」などの形容詞を加えたり、「sunset」を「afternoon」や「rainy day」に変えたりすると、生成的逆説ネットワーク（ generative adversarial networks）に基づくディープラーニングモデルが瞬時に画像を修正します。

GauGAN2のAIモデルは，世界で最も強力なスーパーコンピュータ10台のうちの1台であるNVIDIA DGX SuperPOD system を搭載した「NVIDIA Selene supercomputer」を用いて，1,000万枚の高品質な風景画像を用いて学習されました。研究者は、”winter”、”foggy”、”rainbow “など、言葉とそれに対応するビジュアルの関連性を学習するニューラルネットワークを使用したとのことです。

今回利用可能になったGauGAN2デモは、テキスト、セグメンテーションマッピング、スケッチ、スタイルといった複数の機能を単一のGANフレームワーク内で組み合わせた最初のデモのひとつです。テキストから画像への変換や、マップから画像への変換に特化した最先端のモデルと比較して、GauGAN2のニューラルネットワークは、より多様で高品質な画像を生成するとされています。

新しいGauGAN2のテキストから画像への変換機能は、こちらのデモページで体験することができます。

‘Paint Me a Picture’: NVIDIA Research Shows GauGAN AI Art Demo Now Responds to Words