AIによる動画要約
この要約は、AIを使用してYouTube動画の字幕から自動生成されました。動画の内容を理解する一助となれば幸いです。
この動画では、Google AI Studioに新たに追加された動画生成機能について、その使い方や性能、料金体系などを詳しく解説しています。
なお、この要約文は「YouTube動画字幕からの要約生成指示書セット」を使用して作成しました。
Google AI Studioの進化と新機能「動画生成」
Google AI Studioは急速に進化しており、最近UIが変更され、新たに動画生成機能が追加されました。この機能は、現在Google AI Studio内で無料で試用できるようです。
動画生成に使用されるモデルはVEO 2
の一つのみです。設定項目としては、一度に生成する結果数(最大2つ)、アスペクト比(横型・縦型)、動画の秒数(5秒から8秒)、フレームレート(現在24FPS
のみ)、解像度(現在720p
のみ)を選択できます。また、ネガティブプロンプトの入力欄も用意されています。
生成方法は、テキストプロンプトから動画を作成するtext-to-video
と、画像を入力として動画を生成するimage-to-video
の2種類があります。画像はGoogleドライブやローカルからのアップロード、カメラでの撮影に対応しています。
補足情報
VEO 2
:Google I・O 2024で発表された、Googleの最新の高性能AI動画生成モデルです。プロンプトのニュアンスを理解し、高品質で一貫性のある動画を生成することを目指しています。720p
:HD画質(1280x720ピクセル)を指します。フルHD(1080p)より解像度は低いですが、Web動画としては一般的な画質の一つです。24FPS
:1秒間に24フレーム(コマ)で構成される動画のことです。映画で標準的に用いられるフレームレートですが、動きの速いシーンでは30FPS
や60FPS
に比べて滑らかさに欠ける場合があります。
Text-to-Video:プロンプトからの動画生成
text-to-video
機能では、プロンプトを入力することで動画を生成できます。動画では、サンプルプロンプトを使用して生成したデモが紹介されており、720p
・24FPS
という現在の設定でも、非常に高画質で滑らかな動画が生成されることが示されています。特にゆっくりとした動きでは、24FPS
でも十分な品質が得られるようです。
さらに、日本語プロンプト(例:「笑顔で手を振る女性、背景は海、天候は晴れ」)でも問題なく動画が生成できることが確認されました。これは、内部的にGemini
のような強力なAIがプロンプトを解釈・翻訳しているためと考えられます。※ただし、動きによっては24FPS
特有のカクつきが見られる場合もあります。
Image-to-Video:画像からの動画生成
image-to-video
機能では、入力した画像を元に動画を生成します。画像のみを入力した場合でも、自然な動きのある動画が生成されました。
さらに、画像に加えて「笑顔」「手を振る」「いきなり走り出しておたけびを上げる」「格闘家のようにパンチやキックを繰り出す」といった日本語プロンプトで動きを指示したところ、AIはこれらの指示をかなり忠実に反映した動画を生成しました。特に「おたけび」や「パンチ」といった動きも再現されており、プロンプトへの追従性の高さがうかがえます。※ただし、複雑な動き(キックなど)はまだ完全には再現できない場合もあるようです。
生成された動画はダウンロード可能で、現時点では目に見える「すかし」は確認できませんでした。※ただし、ドキュメントによると、Googleが識別できる電子すかしが含まれている可能性があるため、著作権などには注意が必要です。
VEOモデルの詳細と料金体系
VEO
モデルに関するドキュメントによると、このモデルは本来API
経由での利用を前提とした有料機能です。Google AI Studioでの無料提供は、現時点での特別な措置と考えられます。
VEO
はGoogleの最も高機能な動画生成モデルとされ、プロンプトのニュアンスを捉え、フレーム間で一貫性のあるディテールをレンダリングする能力が高いと説明されています。ドキュメントには、効果的なプロンプトの書き方(被写体、カメラワーク、スタイル指定など)に関するヒントも記載されています。
Gemini API
の有料階層でVEO
を利用する場合の料金は、1秒あたり0.35米ドル
(約50円)とされています。8秒の動画を生成すると約400円かかる計算になり、比較的高価な印象です。
補足情報
Gemini API
:Googleが提供するAIモデル「Gemini
」ファミリーを利用するためのインターフェースです。テキスト、画像、音声、動画など、マルチモーダルな処理が可能です。
今後の展望と他のAI動画生成ツール
GoogleのVEO 2
の登場により、KLING AI
、Luma AI
、Runway
といった既存のAI動画生成ツールとの競争が激化することが予想されます。Googleの持つAI技術力(特にGemini
との連携)は、動画生成分野においても大きな強みとなる可能性があります。
VEO
モデルを利用した動画生成機能は、将来的にはVideoFX
という一般向けのツールとして提供される可能性があります。VideoFX
は、Googleが開発中のAIツール群(ImageFX
、MusicFX
など)の一つで、現在順番待ちリストへの登録を受け付けています。
補足情報
VideoFX
:Google Labsで開発中の実験的なAI動画生成ツール。一般ユーザーが簡単に高品質な動画を作成できることを目指しています。
まとめ:Google AI Studioの動画生成機能 VEO 2 の可能性
Google AI Studioに突如として追加されたVEO 2
による動画生成機能は、text-to-video
およびimage-to-video
の両方に対応し、日本語プロンプトでも高い精度で指示に従った動画を生成できることが示されました。
現在の仕様は720p
・24FPS
、最大8秒と制限がありますが、生成される動画の画質や動きの自然さは非常に高いレベルにあります。API
経由では有料ですが、Google AI Studio内では現在無料で試用できるため、その性能を手軽に体験できます(ただし、利用規約や電子すかしには注意が必要です)。
Googleの強力なAI技術を背景に持つこの機能は、今後の機能拡張や、VideoFX
としての一般提供が期待される、注目のAI動画生成ツールと言えるでしょう。