2024年12月16日(現地時間) – Googleは、動画生成モデルの最新バージョンの『Veo 2』と画像生成モデルの最新バージョンの『Imagen 3』、Google Labs 実験的なツール『Whisk』を発表しました。
Veo 2
Veo 2は、さまざまなテーマやスタイルで高品質なビデオを生成することができるGoogleの動画生成モデルの最新バージョンです。
Googleによると、人間の評価者による直接比較において、Veo 2は主要なモデルと比較して最先端の結果を達成したとのことです。以下が動画の生成例です。
Today we announced Veo 2: our state-of-the-art video generation model which produces realistic, high-quality clips from text or image prompts. 🎥
— labs.google (@labsdotgoogle) December 16, 2024
Sign up to try Veo 2 in VideoFX ↓ https://t.co/xNap881O5a pic.twitter.com/4Z9UzErBhX
■現実世界の物理学と人間の動きや表情の理解度が向上
この最新バージョンのモデルでは、現実世界の物理学と人間の動きや表情のニュアンスに対する理解が深まったことにより、ディテールとリアリズムが全体的に向上しています。
ジャンルやレンズ、映画的なエフェクトも理解し、最大4Kの解像度で、長さ数分に及ぶ撮影を実現することができるとのことです。
例えば、シーンの真ん中を滑空するローアングルのトラッキングショットや、顕微鏡を覗く科学者の顔のクローズアップショットを作成することが可能です。また、プロンプトに「Field depth of shallow(被写界深度が浅い)」と入力することで、背景をぼかし、被写体に焦点を合わせることができます。
■不要なディテール出現頻度が低下
動画モデルでは、「幻覚」のような不要なディテール(例えば、余分な指や予期しないオブジェクトなど)が生じることがよくあります。
Veo 2 では、このようなディテールが生じる頻度が低くなっており、より出力がリアルになっています。
安全性と責任ある開発へのコミットメントについて
Googleは、Veo を利用しやすくし、モデルの品質と安全性を確認、理解、および改善できるように、意図的に慎重を期してVideoFX、YouTube、および Vertex AI を介して徐々に展開しているとのことです。
他のGoogleの画像および動画生成モデルと同様に、Veo 2 の出力には目に見えない SynthID ウォーターマークが含まれており、AI が生成したものであることを識別できるため、誤った情報や誤認識の可能性を減らすことができます。
利用について
Veo 2 は Google Labs の動画生成ツール VideoFX で利用できます。
こちらからウェイティングリストへ登録することができます。この度アクセスできるユーザー数が拡大されるとのことです。
来年には、YouTube Shorts やその他の製品にも拡大される予定です。
Imagen 3
Imagen 3の画像生成モデルも改良され、より明るく、より良い構図の画像が生成されるようになりました。
今回のアップグレードでは、プロンプトにより忠実に従い、より豊かなディテールとテクスチャをレンダリング可能となっており、フォトリアリズムから印象派、抽象画からアニメまで、より多様なアートスタイルをより正確にレンダリングできるようになっているとのことです。
Googleによると、主要な画像生成モデルとの人間による出力比較で、Imagen 3は最先端の結果を達成しているとのことです。
利用について
最新のImagen 3モデルは、Google Labsの画像生成ツールであるImageFXにて、100カ国以上でグローバルに展開されています。
Whisk
Whiskは、画像でプロンプトを入力してアイデアを視覚化できるGoogle Labsの新しい実験的ツールです。
Whiskでは、長く詳細なテキストプロンプトで画像を生成する代わりに、画像でプロンプトを生成できます。被写体の画像、シーンの画像、スタイルの画像をドラッグするだけで、簡単にオリジナルの画像を生成することができます。
アーティストやクリエイターとの初期のテストでは、Whiskは従来の画像エディターではない、新しいタイプのクリエイティブツールであると評価されており、Googleもピクセル単位の完璧な編集ではなく、迅速な視覚的探求のためにWhiskを開発したとのことです。
Whiskでは、Geminiモデルが自動的に画像の詳細なキャプションを書き、その説明をGoogleの最新画像生成モデル「Imagen 3」に送信しています。
このプロセスは、被写体の本質を捉えるものであり、正確な複製ではないため、被写体やシーン、スタイルを斬新な方法で簡単にリミックスすることができます。
注意
Whiskは、画像からいくつかの重要な特徴のみを抽出するため、期待とは異なる画像を生成する可能性があります。例えば、生成された被写体の身長、体重、髪型、肌の色などが異なる場合があります。
こうした特徴がプロジェクトにとって重要であり、Whiskが的外れな結果を出す可能性があることを理解しているので、Whiskでは、いつでもプロンプトを表示して編集できるようになっています。
利用について
こちらから登録することで利用可能になったときにお知らせを受け取ることができます。
アメリカにお住まいの方は今すぐ試すことができます。
State-of-the-art video and image generation with Veo 2 and Imagen 3
コメント