Googleの生成AI Gemini、写真とテキストで動画制作が可能に
- 桜井 未来
- 7月14日
- 読了時間: 2分
更新日:7月18日

Pro/Ultraプラン限定、最大8秒の音声付きショート動画を提供開始
米Googleは7月10日(現地時間)、AIアシスタント「Gemini」において、静止画とテキストプロンプトをもとに短尺動画を生成できる新機能を発表した。最大8秒の16:9映像には、効果音や環境音、ナレーションが自動で付加され、1枚の写真が“動きと音”を伴ったショートムービーへと変換される。この機能は、有料のGemini Advancedプラン(Pro / Ultra)向けに提供されている。
動画生成の中核を担うのは、Google DeepMindが開発した最新の生成モデル「Veo 3」。映像の時間軸の整合性やリアリズムに優れ、もともとは映画制作支援ツール「Flow」に搭載されていた技術が、一般ユーザーにも開放されたかたちだ。
利用者はまずGemini画面にアクセスし、動画化したい写真をアップロードする。次に、写真のどの部分をどのように動かしたいかを、自然な言葉でテキストプロンプトとして入力するだけでよい。たとえば「犬が芝生を走る」「海の波がゆったりと揺れる」といった具体的な指示を加えることで、AIが映像に動きを与え、効果音やナレーションを自動的に付加する。この手軽な操作により、専門的な編集技術がなくとも、写真が生き生きと動く動画に変換される仕組みだ。
生成された映像には、「AI生成」であることを示すウォーターマークが挿入されるほか、DeepMindによる不可視のデジタル透かし技術「SynthID」も埋め込まれる。不適切なプロンプトや画像に対してはフィルタリングが施され、安全性にも十分に配慮されている。
参照サイト
Google The Keyword
Turn your photos into videos in Gemini