Google、動画生成モデル Veoと画像生成モデル Imagen 3 を発表

ニュース

2024年5月14日(現地時間)- Google は、クリエイターのために作られた新しい生成メディアモデルとツールを発表しました。この発表では、最新かつ最先端の動画生成モデルであるVeoと、これまでで最高品質のテキスト画像生成モデルであるImagen 3、Music AI Sandboxで作成された新しいデモ音源が紹介されました。

Google の最も高性能な動画生成モデル『 Veo』

Veoは、1080p解像度の高品質な動画を、1分を超える幅広い映画的・視覚的スタイルで生成することができるGoogleの新しい動画生成モデルです。このモデルは、自然言語と視覚的なニュアンスを高度に理解することで、プロンプトのトーンを正確に捉え、長いプロンプトの詳細をレンダリングするなど、ユーザーのクリエイティブなビジョンを忠実に表現する動画を生成します。

例えば、このモデルは「Timelapse(タイムラプス)」や「Airial shot of a landscape(風景の空撮)」のような映画用語を理解し、これまでにないレベルのクリエイティブなコントロールを提供します。人、動物、およびオブジェクトがショット全体を通してリアルに動くため、一貫性のある首尾一貫した映像が作成されます。

Veo は、 Generative Query Network (GQN)、DVD-GANImagen-VideoPhenakiWALTVideoPoetLumiere、そしてTransformer アーキテクチャGeminiなど、長年にわたる生成ビデオ モデルの作業に基づいて構築されています。

Veoでは、モデルがビデオの内容を理解するための学習方法、高解像度画像のレンダリング、私たちの世界の物理シミュレーションなどの技術が向上しました。Veo がプロンプトをより正確に理解し、それに従うことができるように、トレーニング データに含まれる各動画のキャプションの詳細が追加され、パフォーマンスをさらに向上させるため、モデルはビデオの高品質で圧縮された表現(latents とも呼ばれる)を使用してより効率的になりました。これらのステップにより、全体的な品質が向上し、動画の生成にかかる時間が短縮されています。

Google は、ストーリーテラーの創作プロセスを Veo がどのようにサポートできるかを発見するため、さまざまな映画制作者やクリエイターを招待して、このモデルを試してもらっています。これはテクノロジーを設計、構築、展開する方法を改善し、クリエイターがその開発方法について発言できるようにすることにも役立ちます。

次の動画では、映画監督のDonald Gloverと彼のクリエイティブスタジオであるGilgaが、映画プロジェクトのためにVeoを実験的に使用した様子を見ることができます。

Veo の機能の詳細についてはこちらから

利用について

Veoは、labs.google の新しい実験ツールである VideoFXのプライベートプレビューで、一部のクリエイターが利用することができます。将来的には、Veo の機能の一部を YouTube Shorts やその他の製品にも導入される予定です。

Google の最高品質のテキスト画像生成モデル『Imagen 3』

『Imagen 3』は、優れたディテールレベルでフォトリアリスティックでリアルな画像を生成することができるGoogle の最高品質のテキスト画像生成モデルです。

Imagen 3 では、自然言語やプロンプトの背後にある意図をよりよく理解し、長いプロンプトから小さなディテールを取り入れることができるようになりました。このモデルの高い理解レベルは、様々なスタイルをマスターするのに役立ちます。


”Prompt: A weathered, wooden mech robot covered in flowering vines stands peacefully in a field of tall wildflowers, with a small bluebird resting on its outstretched hand. Digital cartoon, with warm colors and soft lines. A large cliff with waterfall looms behind.”

また、このモデルは、画像生成モデルの課題であったテキストのレンダリングに関しても、これまでで最高のモデルとされています。この機能により、パーソナライズされた誕生日メッセージやプレゼンテーションのタイトルスライドなどを生成することができるようになります。


”Prompt: Pixel art of a space shuttle blasting of. Cape Canaveral in the background, blue skies, with plumes of smoke billowing out. “STS-1” is written below it.”


”Prompt: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of golden hour lends a nostalgic and intimate feel to the image.”

Imagen 3 の機能の詳細についてはこちらから

利用について

Imagen 3は、ImageFX,のプライベートプレビューで、選ばれたクリエイターが利用することができます。ウェイトリストへの登録はこちらから

また、Imagen 3は、Vertex AIにも近日公開予定です。

Music AI Sandboxで作成された新しいデモ

Google は、Music AI Sandboxと呼ばれる音楽AIツール群を開発してきました。これらのツールは、創造性のための新しい遊び場を開くように設計されており、人々がゼロから新しい楽器セクションを作成したり、新しい方法で音を変換したり、その他多くのことを可能にします。

Google は、ミュージシャン、ソングライター、プロデューサーと協力し、音楽制作プロセスにおいて人工知能が果たすことのできる役割を調査しています。グラミー賞受賞ミュージシャンのWyclef Jean氏、グラミー賞にノミネートされたソングライターのJustin Tranter氏、エレクトロニックミュージシャンのMarc Rebillet氏はGoogleと協力して、音楽AIツールの助けを借りて作成した新しいデモ音源をYouTubeチャンネルで公開しました。


New generative media models and tools, built with and for creators

コメント

Translate »
タイトルとURLをコピーしました