AI 動画生成AI

Google Veo 3 プロンプト完全ガイド【初心者向け】

広告

Veo 3 プロンプト・インタラクティブガイド

Google Veo 3 プロンプトエンジニアリング

このガイドは、Googleの最新動画生成AI「Veo 3」の能力を最大限に引き出すための、インタラクティブなプロンプト作成プレイブックです。基本から応用まで、効果的なテクニックを学び、あなただけの映像を創造しましょう。

プロンプトの5つの基本要素

優れた映像は、これらの要素の組み合わせから生まれます。各カードをクリックして、良い例と悪い例を比較し、具体的に記述する重要性を学びましょう。

👤

被写体

誰が、何を

被写体の具体化

悪い例: `男性`

良い例: `40代、使い古された革のジャケットを着た、疲れた表情の探偵`

🗺️

コンテキスト

どこで、いつ

背景の構築

悪い例: `街で`

良い例: `雨に濡れたネオン街、深夜の路地裏`

🏃

アクション

何をする

動きの演出

悪い例: `歩く`

良い例: `何かから逃げるように、必死の形相で疾走する`

🎨

スタイル

どんな見た目

視覚言語の制御

悪い例: `リアルな`

良い例: `フィルムノワール調、35mmフィルムで撮影、高コントラスト`

💡

雰囲気

どんなムード

ムードの操作

悪い例: `暗い`

良い例: `街灯のオレンジ色の光が、深い影を落とす`

バーチャルカメラの演出

カメラを制する者は、物語を制します。ショット、アングル、動きをプロンプトで指定し、映像にダイナミズムと感情の深みを与えましょう。

主要なカメラワーク

  • Wide Shot (ワイドショット): シーン全体を映し、状況を説明する。
  • Close-Up (クローズアップ): 表情やディテールを強調し、感情に焦点を当てる。
  • Tracking Shot (トラッキングショット): 動く被写体を追いかけ、臨場感を出す。
  • Dolly In (ドリーイン): 被写体に物理的に近づき、観客の注意を引く。
  • Low Angle (ローアングル): 下から煽るように撮影し、被写体に威厳や力を与える。
  • Aerial Shot (空撮): 上空から撮影し、壮大なスケールを見せる。

サウンドスケープの設計

映像体験は音によって完成します。対話、効果音、音楽を的確にプロンプトで指示し、没入感のある世界を創造しましょう。

対話の正しい構文

キャラクターとセリフをコロン `:` で繋ぐのが最も確実な方法です。これにより、不要な字幕の生成を防ぎ、自然なリップシンクが期待できます。

`赤いドレスの女性 says: ここで待ち合わせましょう。`

`青いシャツの男性 replies: 了解。`

高度なプロンプティング技術

基本をマスターしたら、これらのテクニックで表現の幅をさらに広げましょう。

1つのプロンプト内で、一連の動作や感情の変化を記述できます。「then」や句読点を使って、物語の短いアークを作成します。

`男が窓の外を眺める。そして、ゆっくりと振り返り、悲しげに微笑む。`

参照画像を入力として使うことで、キャラクターやスタイルの一貫性を保ちやすくなります。プロンプトでは、画像に「どのような動きを加えたいか」に集中して記述します。

`[キャラクターの画像を入力] + プロンプト: キャラクターが本から顔を上げ、カメラに向かって暖かく微笑む。`

生成してほしくない要素を指定します。特に一般的なアーティファクトを避けるのに有効です。`(no subtitles)` のように括弧で囲むコミュニティ発見のテクニックがしばしば機能します。

`... (no text, no watermarks)`

インタラクティブ・プロンプトビルダー

学んだ知識を使って、あなただけのプロンプトを組み立ててみましょう。各項目を埋めると、下のボックスに完成したプロンプトが自動で生成されます。

トラブルシューティング

問題が発生しましたか?一般的な問題とその解決策をまとめました。

  • 原因: プロンプトにポリシー違反の単語(著名人名、ブランド名など)が含まれている可能性があります。
  • 対策: より中立的で一般的な言葉に言い換えてみてください。
  • 原因: Google側のサーバーが高負荷状態かもしれません。
  • 対策: 少し時間を置いてから、もう一度試してみてください。
  • 原因: Image-to-Video機能や高解像度化には、音声が生成されない既知のバグがある場合があります。
  • 対策: まずはText-to-Videoで標準解像度で生成し、音声を確認してください。
  • 原因: プロンプトにオーディオの指定がありません。
  • 対策: `Audio:` や `キャラクター says:` の構文を使って、音を明示的に指示してください。
  • 原因: 長時間の動画や、複雑すぎるアクションはAIにとって一貫性を保つのが難しい課題です。
  • 対策: 1つのプロンプト内のアクションをシンプルにしたり、短いクリップに分割したりすることを検討してください。
  • 対策: Image-to-Videoを使い、各ショットで同じ参照画像を指定すると一貫性が向上します。

Google Veo 3 プロンプトエンジニアリング完全ガイド:基本原則から映像制作の実践まで

第1章 Veoプロンプトの解剖学:視覚的ストーリーテリングのためのコアコンポーネント

この基礎的なセクションでは、Veoプロンプトをその必須の構成要素に分解します。
これらのコアコンポーネントを習得することは、曖昧な要求からAIが効果的に解釈できる明確で意図的な指示へと移行するための、最初にして最も重要なステップです。
ここでは、シーン制作における「何を、誰が、どこで、いつ、どのように」を確立します。

1.1. 被写体(Subject): 「誰が」「何を」を精密に定義する

基本原則: 「男性」のような一般的な用語を超えて、具体的で詳細な記述に移行することが最も重要です。Veoの出力品質は、入力の記述的な豊かさに直接比例します。

実践的ガイダンス:

  • 詳細な身体的特徴を提供する
    年齢、体格、人種、顔の特徴、髪型・髪色、特徴的なマークなどを指定します。
  • 服装やアクセサリーを具体的に記述する
    例えば、「使い古された緑色のトレンチコート」や「色あせたニットの青い船乗り帽」のように記述します。
  • 物体の場合、素材、質感、状態に関連する記述的な形容詞を使用する
    例えば、「ヴィンテージの真鍮製の鼻を持つロボット」や「巨大な古代の青銅製の三叉槍」のように記述します。
  • 悪い例と良い例
    悪い例: オフィスにいる女性。 (A woman in an office.)
    良い例: 露出したレンガの壁があるモダンなスタートアップオフィスで、カジュアルなボタンダウンシャツを着て夜遅くまで働く、40代の集中した起業家。 (A focused entrepreneur in his 40s wearing a casual button-down shirt working late in a modern startup office with exposed brick walls.)

この「具体性の原則」には明確な因果関係が存在します。
「犬」のような曖昧なプロンプトは、Veoがその広大な学習データの中から最も一般的で平均化された例に頼ることを促します。

対照的に、「太陽が降り注ぐ芝生の公園で、赤いボールを喜んで追いかけるゴールデンレトリバー」のような非常に具体的なプロンプトは、モデルの探索空間を制約します。
これにより、ユーザーの意図により合致するだけでなく、モデルが達成すべき目標が明確になるため、知覚される品質と一貫性がしばしば高まる出力が得られます。

このプロセスは、曖昧な指示がAIに「平均的な」結果を選ばせるのに対し、具体的な指示がAIに明確なターゲットを与え、より高品質で意図に沿った結果を生み出させるという、モデルの根本的な動作原理を反映しています。

1.2. コンテキスト(Context):シーンの「どこで」「いつ」を構築する

基本原則: 環境は物語の文脈と視覚的な面白さを提供します。よく記述された設定は、被写体を地に足の着いたものにし、全体的な雰囲気を決定づけます。

実践的ガイダンス:

  • 建築的または自然な詳細で場所を指定する
    例えば、「日の出の霧深い松林」、「散らかった書斎」、「夜の賑やかな東京の通り」のように指定します。
  • 時間帯を定義する
    これは照明に大きく影響するため、「夜明けに」、「午後の光の中で」、「夕暮れ時に」のように定義します。
  • 背景要素、小道具、天候条件を含めて、深みとリアリズムを加える
    例えば、「生い茂る蔓、苔むした石、石段を漂う霧」、「穏やかに降る雪」のように記述します。

  • 夜明けの密林にある古代の廃墟となった寺院、生い茂る蔓、苔むした石、石段を漂う霧。 (An ancient ruined temple in a dense jungle at dawn, with overgrown vines, moss-covered stones, and mist drifting across the stone steps.)

1.3. アクション(Action):強い動詞で動きと物語を演出する

基本原則: アクションはビデオの原動力です。強く具体的な動詞を使用し、単なる動きだけでなく、その動きの「様子」を記述します。

実践的ガイダンス:

  • 歩くや動くのような一般的な動詞の代わりに、疾走する(sprinting)、とぼとぼ歩く(trudging)、滑るように進む(gliding)、跳ぶ(leaping)、素早く動く(darting)などの鮮やかな動詞を使用します。
  • アクションの質を記述する
    「喜んで疾走する」、「自信を持って何気なく歩く」のように記述します。
  • 微細な表情やジェスチャーを含めて、感情や意図を伝える
    例えば、「目を細める」、「首を傾げる」、「手が緊張する」のように記述します。

  • なめらかな黒猫、エメラルドグリーンの目が光り、雪の丘を巧みにスケートボードで滑り降りる。 (A sleek black cat, emerald-green eyes glowing, deftly riding a skateboard down a snowy hill.)

1.4. スタイルと美学(Style & Aesthetics):視覚言語を制御する

基本原則: 芸術的なスタイルを明示的に定義することは、一貫性のある意図的な外観を実現し、モデルが一般的な「AIらしい」美学にデフォルトで設定されるのを防ぐために不可欠です。

実践的ガイダンス:

  • 特定の映画ジャンルや芸術運動を参照する
    例えば、cinematic film noir style(映画的なフィルムノワールスタイル)、documentary realism(ドキュメンタリーリアリズム)、Studio Ghibli-inspired(スタジオジブリ風)のように参照します。
  • 望ましい品質とリアリズムのためのキーワードを使用する
    例えば、photorealistic(写真のようにリアルな)、ultra-realistic(超リアルな)、4K detail(4Kの詳細)、shot on 35mm film(35mmフィルムで撮影)のように使用します。
  • アニメーションスタイルを明確に指定する
    例えば、Pixar-like 3D animation(ピクサー風3Dアニメーション)、stop-motion claymation(ストップモーションクレイメーション)、hand-drawn 2D cartoon(手描き2Dカートゥーン)のように指定します。

  • 赤いウールのニット製バイクヘルメットをかぶった30歳の宇宙飛行士の冒険を描いた映画予告編、青い空、塩の砂漠、映画的なスタイル、35mmフィルムで撮影、鮮やかな色彩。 (A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.)

1.5. 雰囲気と照明(Ambiance & Lighting):光と色でムードを操る

基本原則: 照明と色は、ムードを確立するための最も強力なツールです。光源、光の質、カラーパレットを記述して、シーンの感情的なトーンを導きます。

実践的ガイダンス:

  • 具体的な用語で照明を記述する
    例えば、soft morning light through windows(窓からの柔らかい朝の光)、dramatic contrast with deep shadows(深い影との劇的なコントラスト)、soft candlelight flickering(柔らかいろうそくの光のちらつき)のように記述します。
  • カラーパレットやカラーグレーディングを指定する
    例えば、warm golden-hour glow(暖かいゴールデンアワーの輝き)、cool blue tones(クールな青系のトーン)、muted sepia tones(落ち着いたセピア調)、vivid technicolor(鮮やかなテクニカラー)のように指定します。
  • 照明を環境と結びつける
    例えば、neon signs reflecting on wet pavement(濡れた舗道に反射するネオンサイン)のように記述します。

  • 真夜中のネオンに浸されたサイバーパンクの路地、濡れた舗道が鮮やかなピンクとティールの光を反射し、超リアルなディテールで表示される。 (A neon-soaked cyberpunk alley at midnight, rain-slicked pavement reflecting vibrant pink and teal lights, viewed in hyper-realistic detail.)

第2章 バーチャルカメラの演出:映画的な制御をマスターする

このセクションでは、シーンの内容を記述することから、そのシーンが「どのように」撮影されるかを指示することへと移行します。
映画撮影の言語を理解し適用することが、単純なクリップを映画的なショットへと昇華させる鍵となります。
Veoはこれらの用語を高度に理解する能力を持っています。

2.1. シーンのフレーミング:ショットタイプの用語集

基本原則: ワイドショットやクローズアップなどのショットの選択は、観客が何を見て何を感じるかを決定します。それは物語の感情的な距離と焦点を制御します。

実践的ガイダンス:

  • エスタブリッシングショット
    wide shot(ワイドショット)やestablishing shot(エスタブリッシングショット)を使用して、環境と被写体のその中での位置を示します。
  • ミディアムショット
    medium shot(ミディアムショット)を使用して、会話やキャラクターを腰から上まで表示し、ディテールとコンテキストのバランスを取ります。
  • クローズアップ
    close-up(クローズアップ)やextreme close-up(エクストリームクローズアップ)を使用して、感情、ディテール、または重要なオブジェクトを強調します。

  • シーンはワイドなエスタブリッシングショットで始まり、3秒時点でスムーズにミディアムショットに移行し、最終的にキャラクターの決意に満ちた表情のクローズアップで終わる。 (The scene begins with a wide establishing shot, then smoothly transitions to a medium shot at the 3-second mark, finally ending with a close-up on the character's determined expression.)

2.2. 動きのシミュレーション:パン、ドリー、ズーム、トラッキングショットのガイド

基本原則: カメラの動きはダイナミズムを加え、視聴者の注意を引きます。動きを指定しない場合、Veoは静的なショットにデフォルトで設定される可能性が高いです。

実践的ガイダンス:

  • パン/チルト
    pan shot(パンショット、水平)やtilt shot(チルトショット、垂直)を使用して、シーンを明らかにしたり、被写体の視線を追ったりします。
  • ドリー/ズーム
    dolly in/out(ドリーイン/アウト)を使用して、被写体に向かって/離れて物理的にカメラを動かし、奥行きを作り出します。zoom in/out(ズームイン/アウト)は、レンズベースの拡大効果に使用します。
  • トラッキングショット
    tracking shot(トラッキングショット)やfollow shot(フォローショット)を使用して、動く被写体と一緒にカメラを動かします。
  • 空撮/クレーン
    aerial shot(空撮)、drone shot(ドローンショット)、crane shot(クレーンショット)を使用して、劇的な俯瞰図やリビール(暴露)を行います。

  • 広大な空撮が、その巨大なスケールと不毛な風景の中での孤立を確立する。カメラは降下して蒸気を噴き出すパイプを捉える... 横方向のトラッキングショットが、小さなローブを着た人物たちを発見する... (A sweeping aerial shot establishes its enormous scale and isolation in the barren landscape. The camera descends to capture pipes hissing steam... A lateral tracking shot discovers tiny, robed figures...)

2.3. 視点の確立:カメラアングルの力

基本原則: 被写体に対するカメラのアングルは、視聴者に深い心理的影響を与えます。

実践的ガイダンス:

  • ローアングル
    被写体の下から撮影し、彼らをパワフル、威圧的、または英雄的に見せます。
  • ハイアングル
    上から撮影し、しばしば被写体を小さく、孤立している、または無力に見せます。
  • アイレベル
    被写体と直接的なつながりを生み出す、中立的で地に足の着いた視点です。
  • ダッチアングル
    カメラを軸上で傾けて、不安、緊張、または方向感覚の喪失感を生み出します。

  • ローアングルショットから、群衆に演説するCEOのそびえ立つ姿を見せる。 (From a low angle shot, show the towering figure of the CEO addressing the crowd.)

表2.1:カメラ制御キーワード用語集

このクイックリファレンスガイドは、クリエイターが映画的なコンセプトをVeoと互換性のある特定のキーワードに変換するのを助けることを目的としています。
この表は、映画製作の専門用語を解き明かし、映画撮影の背景がないユーザーでもすぐに行動に移せるようにするため、価値があります。

映画用語 定義 プロンプト使用例
Wide Shot(ワイドショット) 被写体全体または物体とその環境との関係を示す。 夜明けの竹林のワイドショット、霧が茎の間を漂う。 (Wide shot of a bamboo forest at dawn, mist rolling between the stalks.)
Close-Up(クローズアップ) 画面を被写体の顔や特定のディテールで満たす。 ラップトップでタイピングする手のクローズアップ。 (Close-up of hands typing on a laptop.)
Tracking Shot(トラッキングショット) カメラが被写体と一緒に移動する。 森の小道を縫って走るランナーを追うトラッキングショット。 (Tracking shot following a runner weaving through a forest trail.)
Dolly In(ドリーイン) カメラが物理的に被写体に近づく。 花瓶の花にゆっくりとドリーインし、各花びらの露を明らかにするためにズームする。 (Dolly in slowly on a vase of flowers, zooming to reveal dew on each petal.)
Low Angle Shot(ローアングルショット) カメラが被写体を見上げる。 夜の通りを歩くアニメの女の子のローアングルショット。 (A low-angle shot of an anime girl walking down a street at night.)
Aerial Shot(空撮) 高高度から撮影されたショットで、しばしばドローンやヘリコプターの視点から撮影される。 広大な空撮が、その巨大なスケールと不毛な風景の中での孤立を確立する。 (A sweeping aerial shot establishes its enormous scale and isolation in the barren landscape.)

第3章 サウンドスケープ:統合されたオーディオと対話のプロンプティング

Veoのネイティブオーディオ生成は革新的な機能ですが、独自のプロンプティングアプローチを必要とします。
このセクションでは、対話、効果音、音楽を指示する方法、および一般的なオーディオ関連の問題をトラブルシューティングする方法について説明します。

3.1. 対話の作成:明示的対話 vs 暗示的対話と複数キャラクターのシーン

基本原則: 正確な台本を提供するか、会話の性質を記述することができます。特に複数の話者がいる場合は、明確さが鍵となります。

実践的ガイダンス:

  • 明示的対話
    キャラクター says:"対話" または キャラクター:"対話" の形式を使用します。コロンは字幕を避けるために重要です。
  • 暗示的対話
    話す行為を記述し(例:男が自分の名前を告げる。)、Veoに言葉を生成させます。これは即興には役立ちますが、制御は少なくなります。
  • 複数キャラクターの対話
    混乱を避けるために、視覚的に区別できる特定のキャラクターにセリフを明確に割り当てます。例:赤いドレスの女性が尋ねる:「どこで会いましょうか?」青いシャツの男性が答える:「あの新しいイタリアンはどう?」。
  • 対話の長さ
    急かされたり、ロボットのような話し方を避けたりするために、対話は簡潔に、理想的には5〜8秒以内に収まるようにします。

3.2. 雰囲気の構築:環境音、効果音、音楽のプロンプティング

基本原則: オーディオは単なるスピーチではありません。背景ノイズや音楽を指定することは、没入感のある環境を作り出すために不可欠です。

実践的ガイダンス:

  • 明確にするためにAudio:プレフィックスを使用します。例:Audio: wings flapping, rustling wind, light orchestral score.(オーディオ: 羽ばたき、風のざわめき、軽快なオーケストラスコア。)。
  • 環境音
    環境ノイズを記述します(例:city traffic(都市の交通)、waves crashing(波の打ち寄せる音)、quiet office(静かなオフィス)、background chatter in a cafe(カフェの背景のざわめき))。
  • 効果音(SFX)
    特定のアクションに同期した音をプロンプトします(例:distinct sizzle of onions hitting a hot pan(熱いフライパンに玉ねぎが当たるときの明確なジュージューという音)、door slamming(ドアがバタンと閉まる音)、tires screeching(タイヤのきしむ音))。
  • 音楽
    ジャンル、ムード、楽器編成を指定します(例:low-key jazz(控えめなジャズ)、epic orchestral score with woodwinds(木管楽器を伴う壮大なオーケストラスコア)、fast-paced EDM(速いペースのEDM))。

3.3. 字幕のジレンマ:不要な画面上のテキストを回避するための実証済みテクニック

基本原則: Veoは、字幕が埋め込まれた多くのビデオでトレーニングされた可能性が高く、しばしばデフォルトで字幕を生成します。これを防ぐための特定の「ハック」が存在します。

実践的ガイダンス:

  • コロン方式
    話者の識別子の後、対話の前にコロンを使用します(例:A guy says: My name is Ben)。これは最も信頼性の高い方法です。引用符だけを使用するのは避けてください。
  • 明示的な否定
    プロンプトの最後に(no subtitles)またはno subtitles, no text overlaysを追加します。これは、しばしば機能するコミュニティで発見されたテクニックです。
  • 繰り返し
    字幕が続く場合、一部のユーザーは否定コマンドを繰り返すことで成功を報告しています:No subtitles. No subtitles!。

表3.1:オーディオと対話のプロンプティング構文

この表は、オーディオプロンプティングのための効果的な構文と非効果的な構文を明確に並べて比較することを目的としています。
不適切な構文は、不要な字幕や誤った対話の割り当てといった一般的な失敗の主な原因であるため、これは非常に重要です。
ユーザーが「なぜ失敗したのか」を即座に理解し、クレジットと時間を節約するための実用的な解決策を提供します。

タスク ✅ 正しい/効果的な構文 ❌ 間違った/非効果的な構文 根拠
単一話者の対話 The detective says: Something's not right here.(探偵は言う:「何かがおかしい。」) The detective says "Something's not right here." コロン(:)は、Veoに字幕なしで音声を生成するよう指示する、コミュニティで検証済みのシグナルです。引用符だけでは字幕が生成されることが多いです。
字幕の回避 プロンプトに(no subtitles)を追加する。 Do not show subtitles.のような自然言語を使用する。 モデルは、指示的な文章よりも、特定の括弧付きコマンド(no subtitles)によく反応します。これは微調整された「ハック」である可能性が高いです。
複数話者の対話 Woman in red dress asks: Where to? Man in blue shirt replies: The new place.(赤いドレスの女性が尋ねる:「どこへ?」青いシャツの男性が答える:「新しい店へ。」) Two people talk. One asks where to go, the other suggests a place. 視覚的に区別できるキャラクターに対話を明示的に結びつけることで、モデルが誰が何を言ったかを混同するのを防ぎます。
効果音/音楽 Audio: Sizzling oil in pan, kitchen ambiance. Music: Upbeat acoustic guitar.(オーディオ: フライパンで油がジュージューいう音、キッチンの環境音。音楽: アップビートなアコースティックギター。) I want to hear sizzling and happy music. Audio:プレフィックスと記述的で非会話的なキーワードは、モデルが階層化されたサウンドスケープを生成するためのより明確な指示を提供します。

第4章 高度な物語的および文体的テクニック

基本をマスターしたら、クリエイターはより洗練されたテクニックを用いて、複雑な物語、より大きな文体的制御、およびより高い忠実度を達成することができます。

4.1. シーケンシャルプロンプティング:アクションと感情の連鎖

基本原則: Veoは、単一のプロンプト内で一連のアクションや感情のシフトを理解し実行でき、短い物語のアークを作成します。

実践的ガイダンス:

  • 「then」のような単純な接続詞を使用するか、プロンプトを一連のイベントとして構成します。
  • アクションシーケンスの例
    彼はカメラから背を向けて歩き始める。数歩歩く。立ち止まる。戻るかどうか迷っているかのように肩越しに振り返る。 (He turns from the camera and starts walking off. Takes a few steps. Pauses. Glances back over his shoulder like he's debating returning.)
  • 感情シーケンスの例
    彼は大声で笑い出し、頭を後ろに反らし、体を揺らす。笑いの途中で突然止まり、目が恐怖で大きく見開かれ、顔が凍りつく。 (He bursts into wild laughter, head thrown back, body rocking. Mid-laugh, he stops suddenly, eyes wide with terror, face frozen.)
  • カメラシーケンスの例
    シーンはワイドなエスタブリッシングショットで始まり、次にスムーズにミディアムショットに移行し、最終的にキャラクターの決意に満ちた表情のクローズアップで終わる。 (The scene begins with a wide establishing shot, then smoothly transitions to a medium shot, finally ending with a close-up.)

4.2. Image-to-Video生成:静止画をアニメーション化するための実践ガイド

基本原則: 入力画像を使用すると、スタイル、キャラクター、構図に強力なアンカーが提供され、テキストプロンプトは動きとアクションの指示に純粋に焦点を当てることができます。

実践的ガイダンス:

  • プロセス
    テキストプロンプトと共に入力画像を提供します。画像は最初のフレームおよび文体的なガイドとして機能します。
  • プロンプティング戦略
    テキストプロンプトは簡潔で、望ましい「動き」、「物語の展開」、「オーディオ」に焦点を当てるべきです。画像に既に存在するものを再記述するのは避けます。
  • 使用例
    既存のクリエイティブアセットを生き生きとさせたり、ロゴや製品ショットをアニメーション化したり、前のクリップの最終フレームで後続のクリップを開始することでキャラクターの一貫性を確保したりするのに理想的です。
  • ワークフロー例
    1. 詳細なプロンプトを使用してImagenで高品質なキャラクター画像を生成します。
    2. その画像をVeoの入力として使用します。
    3. 動きに焦点を当てたテキストプロンプトを提供します:キャラクターが本から顔を上げ、カメラに向かって暖かく微笑む。 (The character looks up from the book and smiles warmly at the camera.)

このImage-to-Videoプロンプティングの有効性は、モデルの核心的な動作原理を明らかにします。
それは、静的なスタイルや構図のガイダンスと、動的な動きのガイダンスを分離することです。

テキストプロンプトは、被写体、スタイル、設定、アクションに関するすべての情報を単一の自然言語文字列に詰め込む必要がありますが、これはモデルにとって解釈が複雑になる可能性があります。
一方、Image-to-Videoは、被写体、スタイル、構図の負担を入力画像に完全に委ねます。

これにより、テキストプロンプトは動き、アクション、オーディオといった時間的側面にのみ集中できます。
この「関心の分離」は、モデルへの単一入力モダリティに対する認知的負荷を軽減し、結果として、特に複雑なキャラクターに対してより精密な制御と一貫性が得られる理由を説明しています。

4.3. ネガティブプロンプトの技術:除外項目の指定

基本原則: 公式ドキュメントは曖昧ですが、実践的な応用では、ネガティブプロンプトが不要な要素を削除したり、一般的なAIのアーティファクトを防いだりするための強力なツールであることが示されています。

実践的ガイダンス:

  • 公式な方法
    「見たくない」ものを肯定的な表現で記述します。「壁なし」の代わりに、wall, frame(壁、フレーム)というネガティブプロンプトを使用します。これはモデルに「壁」と「フレーム」の概念から離れるように指示します。
  • コミュニティの方法(直接的な否定)
    字幕のような一般的な問題については、(no subtitles)のような直接的な括弧付きコマンドを使用します。これはより直接的で効果的な「ハック」のようです。
  • JSON構造
    高度なJSONプロンプトには、避けるべきものをリストアップできる専用のnegative_promptキーが含まれています。例:"negative_prompt":"Things to avoid: cartoonish fish, sunny days, cities, people, roads."(避けるべきもの: 漫画風の魚、晴れた日、都市、人々、道路。)。
  • 重要な点
    公式ガイダンスとコミュニティで実証されたテクニックの間には矛盾があります。レポートは両方を提示し、公式な方法が拡散プロセスを導く「理論的に正しい」方法である一方、直接的な否定は特定の一般的な問題に対する実用的で効果的なショートカットであることを説明する必要があります。

第5章 精度と規模のための構造化およびプログラム的プロンプティング

このセクションは、プロ級の一貫性、複雑なマルチショットシーン、およびスケーラブルなコンテンツ作成を目指す上級ユーザー向けです。
文章を書くことから、システムを設計することへと移行します。

5.1. メタプロンプティング:LLMを使用して優れたVeoプロンプトを設計する

基本原則: GeminiやChatGPTのような大規模言語モデル(LLM)の構造的および創造的能力を活用して、「プロンプトの副操縦士」として機能させ、Veoのための整形された、詳細で、多様なプロンプトを生成します。

実践的ガイダンス:

  • タスク
    LLMに単にプロンプトを求めるのではなく、望む構造とコンポーネントを定義する「メタプロンプト」を与えます。
  • メタプロンプトの例
    あなたはGoogle Veo 3のプロのプロンプトエンジニアです。あなたの仕事は、私の簡単なアイデアに基づいて、詳細な150語のビデオプロンプトを生成することです。プロンプトには、被写体、アクション、シーン、スタイル、対話、サウンド、ネガティブの7つのコンポーネントを含める必要があります。私のアイデアは「雨の街の探偵」です。 (You are a professional prompt engineer for Google's Veo 3. Your task is to generate a detailed, 150-word video prompt based on my simple idea. The prompt must include these 7 components: Subject, Action, Scene, Style, Dialogue, Sounds, and Negatives. My idea is: 'a detective in a rainy city'.)
  • 反復のための使用
    LLMに、トーン、ペース、またはカメラワークを変更してプロンプトの複数のバリエーションを生成させ、A/Bテストを容易にします。

5.2. JSONブループリント:構造化プロンプティングの詳細な探求

基本原則: JSON(JavaScript Object Notation)は、曖昧な自然言語を構造化された機械可読形式に置き換えることで、究極の精度を提供します。これはビデオの詳細な設計図として機能します。

実践的ガイダンス:

  • 構造
    JSONプロンプトはキーと値のペアのシステムです。各キーはビデオのコンポーネントを表し、値はその詳細な説明です。
  • 主要コンポーネント
    一般的なキーには、core_concept(コアコンセプト)、scene_environment(シーン環境)、action_sequence(アクションシーケンス、しばしばステップごとに分割)、visual_style(視覚スタイル)、camera_work(カメラワーク)、audio(オーディオ)、negative_prompt(ネガティブプロンプト)などがあります。
  • 最終プロンプト
    多くの場合、JSON構造は、Veoに供給される最終的で非常に詳細な自然言語プロンプト(final_text_prompt_for_ai)を組み立てるために使用されます。
  • ワークフロー
    この方法は、しばしばメタプロンプティングと組み合わせて使用され、LLMに高レベルのコンセプトに基づいてJSONテンプレートを埋めるように指示します。

表5.1:JSONプロンプトの解剖学(マセラティの例に基づく)

この表は、複雑なJSONプロンプトを視覚的に分解し、ユーザーが理解しやすくすることを目的としています。
生のJSONは威圧的に見えることがあるため、この表はそれを管理可能な部分に分割し、各キーの役割を説明することで、その価値を発揮します。

JSONキー 役割/目的 マセラティのプロンプトからの値の例
core_concept ビデオの主要なアイデアの高レベルな要約。 "From the depths of the ocean, the power of Neptune's trident is unleashed."(海の深淵から、ネプチューンの三叉槍の力が解き放たれる。)
details.scene_environment シーンの設定、特徴、ムードを記述する。 {"setting": "The deep, dark abyss of the ocean", "mood": "Mythical, majestic"}(設定: 深く暗い海の深淵、ムード: 神話的、荘厳)
details.action_sequence オブジェクトの配列で、ビデオのステップバイステップの物語の流れを定義する。 (ステップ、説明:オープニングショット:カメラが海底を滑るように進む。)
details.visual_style 全体的な美学、解像度、照明を定義する。 {"aesthetic": "Cinematic, hyper-realistic", "resolution": "8K", "lighting": "Dark and mysterious"}(美学: 映画的、超リアル、解像度: 8K、照明: 暗く神秘的)
details.camera_work シーケンス全体のすべてのカメラの動きとフレーミングを指定する。 {"movement": "Start with a slow, exploratory glide. End on a low, wide-angle shot."}(動き: ゆっくりとした探索的な滑空で開始。ローアングルのワイドショットで終了。)
negative_prompt 生成から明示的に除外するすべての要素をリストアップする。 "Things to avoid: cartoonish fish, sunny days, cities, people, roads."(避けるべきもの: 漫画風の魚、晴れた日、都市、人々、道路。)
final_text_prompt_for_ai 上記の詳細から生成された、最終的で統合された自然言語プロンプト。 "Cinematic 8K video, hyper-realistic, mythic aesthetic. In the dark ocean abyss."(映画的な8Kビデオ、超リアル、神話的な美学。暗い海の深淵で。)

第6章 トラブルシューティングとベストプラクティス:一般的な落とし穴から専門的な改良まで

この最後の重要なセクションでは、Veoを使用する際の現実世界の課題に対処します。
失敗を診断し、一般的な間違いを避け、結果を繰り返し改善するためのフレームワークを提供します。

6.1. 一般的なプロンプティングの間違いとその修正方法

  • 間違い1:曖昧さ。
    最も一般的なエラーです。
    修正: すべてのコンポーネントで記述的かつ具体的にします。
  • 間違い2:過度に長い/複雑なプロンプト。
    複数のシーンからなる映画を1つのプロンプトに詰め込もうとすると、モデルが混乱します。
    修正: プロンプトごとに単一の、まとまりのあるシーンやアクションに焦点を当てます。100〜150語を目指します。
  • 間違い3:オーディオキューを忘れること。
    無音またはぎこちないビデオにつながります。
    修正: 常に対話、環境音、および/または音楽を指定します。
  • 間違い4:不正確な対話構文。
    キャラクター says: 形式の代わりに引用符を使用してしまうこと。
    修正: 字幕を避け、リップシンクを確実にするためにセクション3.3の構文に従います。
  • 間違い5:否定的/会話的な言語の使用。
    AIにチャットボットのように指示すること。
    修正: 記述的で肯定的な表現を使用します。見たくないものではなく、見たいものを記述します。

6.2. 生成失敗の解読:ポリシー、バグ、エラーの理解

基本原則: 「生成に失敗しました」というエラーは、しばしばさまざまな根本的な問題に対する一般的なメッセージです。原因を診断するには体系的なアプローチが必要です。

考えられる原因と解決策:

  • コンテンツポリシー違反
    プロンプトには、意図が良性であっても安全フィルターをトリガーする単語が含まれている可能性があります(例:「刑務所」、「魅力的な女性」、ブランド名、著名人)。
    解決策
    中立的で記述的な言語を使用してプロンプトを言い換えます。
  • 技術的なバグ
    特定の機能にはバグがあることが知られています。Image-to-Videoおよび1080pへのアップスケーリングはオーディオを削除する可能性があります。キャラクターの一貫性は複数のクリップにわたって低下します。
    解決策
    既知の問題に注意してください。オーディオが失われた場合は、720pバージョンのオーディオトラックをダウンロードし、編集ソフトで1080pビデオと組み合わせます。
  • モデルの制限
    AIは複雑な物理学、因果関係、およびオブジェクトの永続性の維持に苦労し、モーフィングや溶解のアーティファクトにつながります。
    解決策
    アクションを簡素化します。複雑なシーンを複数のより単純なプロンプトに分割します。
  • システム/プラットフォームの問題
    エラーはGoogle側(例:高いサーバー負荷、APIの問題)またはサードパーティプラットフォームの問題である可能性があります。
    解決策
    後でもう一度試してください。サービスステータスの更新を確認してください。サードパーティツールを使用している場合は、そのステータスとクレジットを確認してください。

表6.1:Veoトラブルシューティングマトリックス

このマトリックスは、一般的な問題に遭遇したユーザーのための構造化された初期対応ガイドを提供します。
問題を分類し、確率の高い解決策を提供することで、ユーザーが不満から生産的な問題解決へと移行するのを助けます。

問題 考えられる原因 推奨される解決策
「すべての生成に失敗しました」エラー 1. コンテンツポリシー違反(デリケートな単語、著名人)。 2. システム過負荷(Googleのサーバー)。 3. プラットフォーム固有の問題(Googleの直接インターフェース以外を使用している場合)。 1. 中立的で記述的な用語でプロンプトを言い換える。 2. 後でもう一度試す。 3. プラットフォームのステータスを確認し、クレジットがあることを確認する。
オーディオまたは音声が生成されない 1. Image-to-Videoの使用またはクリップの延長(既知のバグでオーディオが失われる可能性)。 2. 1080pへのアップスケーリング(既知のバグ)。 3. モデルがVeo 2にデフォルト設定された(オーディオなし)。 4. プロンプトに明示的なオーディオキューがない。 1. 最初にText-to-Videoとして生成する。 2. 720pバージョンのオーディオをダウンロードし、後処理で1080pビデオと組み合わせる。 3. モデルの選択を再確認する。 4. 具体的なAudio:またはキャラクター says:の行を追加する。
不要な字幕が表示される 1. モデルのデフォルトの挙動。 2. コロン形式の代わりに引用符を対話に使用している。 1. プロンプトに(no subtitles)を追加する。 2. キャラクター says: 対話の形式を使用する。
キャラクター/オブジェクトが変形する、または一貫性がない 1. モデルの制限(オブジェクトの永続性はAIにとって難しい)。 2. プロンプトが複雑すぎる(動きが多すぎる)。 3. 長いシーケンスのクリップを生成している。 1. 各ショットに一貫した参照画像を使用してImage-to-Videoを使用する。 2. 単一のプロンプト内のアクションを簡素化する。 3. わずかなバリエーションを受け入れ、「十分に近づける」。
対話がロボットのよう、または誤って割り当てられている 1. クリップの長さに比べて対話が長すぎる。 2. 複数のキャラクターがプロンプトで明確に区別されていない。 1. 対話を約8秒以下に保つ。 2. 明確な視覚的特徴でキャラクターを記述し、セリフを明確に割り当てる。

引用文献

  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

AIでクリエイティブを加速!AIコンテンツプロンプトエンジニアとして、動画・画像生成から収益化までをプロデュース。YouTube累計収益1300万円突破、月間最高収益148万円達成。AIツール活用、コンテンツ制作、YouTube戦略、収益化ノウハウを共有し、クリエイターの可能性を解き放ちます。

-AI, 動画生成AI
-, , , ,