Google のAIがテキストからフォトリアルな画像を作成する仕組みについて

特集

『AIがテキストからフォトリアルな画像を作成する仕組み(How AI creates photorealistic images from text』という記事の内容の紹介です。

Google Research では、科学者とエンジニアがさまざまな AI 技術を使用してテキストから画像への変換を研究し、最近2つの新しいテキストから画像へのモデル – ImagenとPartiを発表しました。どちらも写実的な画像を生成する能力を備えていますが、異なるアプローチを使用しています。今回は、これらのモデルの仕組みとその可能性についての紹介となります。

テキストから画像への変換モデルについて

テキストから画像への変換では、ユーザーがテキストを入力すると、モデルがそのテキストにできるだけ近い画像を生成します。

「リンゴ」や「ソファに座る猫」といったシンプルなものから、「小さな宝箱を持ったかわいいナマケモノ(a cute sloth holding a small treasure chest. A bright golden glow is coming from the chest)」といった複雑なディテールやインタラクション、説明的な指示まで、さまざまな表現が可能です。

ここ数年、Open AIのDALL-E 2など、大規模な画像データセットとそれに対応するテキスト説明文を用いてMLモデルの学習が行われ、画像の高品質化と説明文の多様化が進み、この分野における大きなブレークスルーを巻き起こしました。当サイトでも昨年、Nvidiaのテキストから画像への変換機能を紹介しました。

https://cginterest.com/2021/11/24/%e3%83%86%e3%82%ad%e3%82%b9%e3%83%88%e3%82%84%e7%b0%a1%e5%8d%98%e3%81%aa%e6%96%87%e7%ab%a0%e3%81%8b%e3%82%89%e7%94%bb%e5%83%8f%e3%82%92%e4%bd%9c%e6%88%90%e3%81%99%e3%82%8b%e3%81%93%e3%81%a8%e3%81%8c/

ImagenとPartiの仕組み

Googleの Imagen と Parti は、従来のモデルをベースにしており、トランスフォーマーモデルは、文中の単語を互いに関連付けながら処理することができます。これらをテキストから画像へのモデルでテキストを表現する方法の基礎とし、両モデルとも、テキストの記述により近い画像を生成するのに役立つ新しい技法が使用されています。Imagen と Partiは同じような技術を用いていますが、それぞれ異なり、相互補完的な戦略を追求しています。

Imagen は、拡散(Diffusion)モデルで、ランダムなドットのパターンを画像に変換することを 学習します。画像は、最初は低解像度から始まり、徐々に解像度を上げていきます。

近年、拡散モデルは、画像の解像度向上、白黒写真の再色付け、画像の領域編集、画像の切り抜き、テキスト音声合成など、画像と音声の両方のタスクで成功を収めています。

一方、Parti(Pathways Autoregressive Text-to-Image model) のアプローチは、まず画像の集合をパズルのピースのようなコード入力のシーケンスに変換。次に、与えられたテキストをこれらのコードエントリに変換し、新しい画像を作成するというものです。

このアプローチは、 PaLM のような大規模言語モデルの既存の研究とインフラを活用したもので、長く複雑なテキストプロンプトを処理し、高品質の画像を生成するために不可欠なものです。

これらのモデルには制限が多くあります。例えば、「リンゴ10個」というような具体的な個数や、「青いブロックの左側に赤い球体があり、その上に黄色い三角形がある」というような空間的な説明に基づいて正しく配置することができません。また、プロンプトが複雑になるにつれて、モデルの詳細が欠落したり、プロンプトで提供されていない詳細が現れたりして、モデルが不安定になり始めます。

これらの挙動は、明示的なトレーニング教材の欠如、限られたデータ表現、3D認識の欠如など、いくつかの欠点が原因とされており、Google は、より広範な表現と、テキストから画像への生成プロセスへのより効果的な統合によって、これらのギャップを解決したいと考えています。

ImagenとPartiへの責任あるアプローチ

テキストから画像への変換モデルは、インスピレーションや創造性を高めるエキサイティングなツールですが、偽情報、偏見、安全性に関連するリスクも伴います。

Google は、Responsible AIの実践と、この技術を安全に追求するために必要なステップを中心に議論しています。その第一歩として、 Imagen や Parti が生成した画像をいつでも認識できるように、簡単に識別できる透かしを使用しています。また、人物や文化の表現方法など、モデルの偏りをよりよく理解するための実験を行い、可能な軽減策を探っているところです。ImagenとPartiの論文では、これらの問題について幅広く議論しています。

Googleにおけるテキストから画像へのモデルの次なる課題

Google は、両モデルの長所を組み合わせた新しいアイデアを推し進め、テキストを通じて画像をインタラクティブに生成・編集する機能を追加するなど、関連するタスクに拡大していくとしています。

また、「Responsible AI Principles」に沿って、綿密な比較と評価を続け、これらのモデルに基づくユーザー体験を、安全かつ責任ある方法で世界に提供し、創造性を刺激することを目指しています。


How AI creates photorealistic images from text

コメント

Translate »
タイトルとURLをコピーしました