Google I/O 2026にて、GoogleのAIアシスタント「Gemini」など多数のアップデートが発表されました。ここでは、新しい動画生成モデル「Gemini Omni」について紹介したいと思います。
Gemini Omniとは
Gemini Omni は、動画・音声・画像・テキストといった複数のモダリティを統合的に扱えるよう設計された最新のマルチモーダルモデルで、動画を起点とした高度な編集や生成を可能にする新しい映像モデルです。
複数の入力を組み合わせることで、プロンプトに応じて映画のようなズーム効果を加えたり、背景を別の環境に置き換えたりといった編集が行えます。また、カメラロールの素材にテンプレートを適用して、動画を効率よく仕上げるといったワークフローも想定されています。
主な特徴
対話を通じた継続的な映像編集
Gemini Omni では、自然な言葉でやり取りしながら動画編集を進めることができます。指示は段階的に反映され、元の映像が持つキャラクター性や文脈を保ったまま編集内容を積み重ねていけます。
シーンの再構成
映像の一部を別の要素に置き換えたり、全体の雰囲気を調整したりと、撮影時には難しかった表現を後から自然な形で実現できます。
プロンプト例:
“Make the sculpture out of bubbles.”(彫刻を泡の素材に変更して。)
アクションの柔軟な変化
特定の動作に対して意図した反応や効果を加えることで、映像に新しい動きやストーリー性を持たせることができます。
プロンプト例:
“When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person’s arm turns into reflective mirror material.”
(鏡に触れた際、鏡面が液体のように波打ち、人物の腕が鏡素材に変化するようにして。)
マルチターン編集
一度のプロンプトで完了するのではなく、前の指示の文脈を理解しながら編集を重ねていくことができます。この過程で、キャラクターの同一性やシーンの連続性はしっかりと維持されます。
プロンプト例:
“A person playing the violin.”(バイオリンを演奏する人物。)
→ “Change the environment.”(環境を変更して。)
→ “Make the violin invisible.”(バイオリンを透明にして。)
→ “Change the camera angle to over the shoulder of the player.”(カメラアングルを奏者の肩越しに変更して。)
物理法則と世界知識の統合
3DCGやVFXの制作において重要となる、重力、運動エネルギー、流体力学といった物理法則を、Gemini Omniは直感的に理解しています。
単に見た目を似せるだけでなく「次にどう動くのが自然か」を推論して映像を生成します。また、科学や歴史などの世界知識と結びつけることで、複雑な概念を視覚化する解説映像の作成にも応用が可能です。
物理法則に沿った自然な描画
Omni は、重力や慣性、流体の動きといった物理的な挙動を理解しており、より自然で説得力のある映像表現をサポートします。
プロンプト例:
“A marble rolling fast on a chain reaction style track, continuous smooth shot.”
(ピタゴラスイッチのような装置を高速で転がるビー玉。途切れることのない滑らかなショットで。)
言語と映像を結びつける表現力
単なるパターン処理ではなく、意味や文脈を踏まえて解釈することで、複雑な概念を映像としてわかりやすく表現できます。
プロンプト例:
“The video shows items of the alphabet… (中略) …Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper ‘THE END’. The whole video is accompanied by calm smooth music.”
(アルファベット各文字に対応したアイテムをテーブル上に表示し、24FPSで1アイテムあたり9フレームで切り替える。最後は「THE END」のメモで締め、穏やかな音楽を添える。)
複数のリファレンスを組み合わせたスタイル転送
Gemini Omni は、画像・テキスト・動画・音声といった複数の入力ソースを「リファレンス」として統合し、ひとつの映像作品として出力できるよう設計されています。
入力として特定の動画の「動き(モーション)」を抽出し、別の画像で指定した「キャラクター」や「マテリアル(質感)」に適用するといった、操作もプロンプトのみで実行可能です。
これにより、手描きのスケッチを元にリアルな映像を生成したり、実写の動きを抽象的な表現に変換したりと、表現の幅が大きく広がります。
※音声入力については、当面は“音声を参照する用途”のみ対応し、今後ほかのタイプにも順次拡張される予定です。
手描きスケッチをリアルな映像へ
手描きのドローイングをガイドとして利用し、その動きをリアルな映像表現へ変換することも可能です。スケッチのタッチをそのまま残すことも、動きだけを抽出して写実的な映像に置き換えることもできます。
プロンプト例:
“turn this into realistic footage, using the drawing only as a guide for movement, do not show the drawing in the final vide
(このドローイングをリアルな映像へ変換して。動きのガイドとしてのみ使用し、最終的な映像にはドローイング自体を表示しないこと。)
スタイルやエフェクトの追加
既存の動画の構成やキャラクターを保ちながら、自然な言葉で特定の動きやエフェクトを直感的に追加できます。
プロンプト例:
“edit this keeping everything the same. add animated motion effects coming out of the skateboard”
(全体の構成を維持したまま、スケートボードからアニメーションするモーションエフェクトを追加して。)
デジタルアバターと責任あるAI開発
Google は、責任を持って AI を開発する姿勢を明確にしており、ユーザーを保護するためのポリシーを定めています。
スタートとして、ユーザーは自分の声を使用したアバター(Avatars)を作成でき、自分自身のように見え、聞こえる動画を生成することが可能です。一方で、動画の音声や発話内容を変更するような編集機能については、慎重な提供が求められる領域であるため、引き続きテストや検証を重ねながら、適切な形で提供できるよう取り組みが進められています。
また、Gemini Omniで作成されたすべての動画には、視覚的には不可視のSynthIDデジタル透かしが埋め込まれます。これにより、Geminiアプリ、Chrome、Google検索を通じて、その動画がGemini Omniで生成されたものであることを容易に確認できます。コンテンツの透明性や検証ツールの拡張については、公式ブログにて詳細をご確認いただけます。
提供状況について
Omniファミリーの最初のモデルである「Gemini Omni Flash」が提供開始されました。Google AI Plus, Pro, Ultraサブスクリプション登録者向けに、GeminiアプリおよびGoogle Flowを通じてグローバル展開されています。また、YouTube Shorts および YouTube Create アプリでも今週から無料で利用可能となります。
さらに、数週間以内には、開発者やエンタープライズ顧客向けにAPIを通じた提供も開始される予定です。























コメント