制作パターン①
リップシンクと画像スライドショーで作る本格解説動画


このページでは、本講座で最も表現力豊かな動画スタイルである「リップシンク動画」と「画像スライドショー」を組み合わせた、本格的な解説動画の制作フローをステップバイステップで解説します。ここをしっかり押さえることで、後の動画制作が格段にスムーズになります!

このパターンでは、キャラクターが実際に話しているように見えるリップシンク映像と、内容に合わせた魅力的な画像を組み合わせることで、視聴者の没入感を高めることができます。


はじめに:このパターンで必要な主要ツールのおさらい

この制作パターンでは、以下の主要なツールを連携させて使用します。各ツールの準備がまだの方は、「講座受講のための準備」ページをご確認ください。

  • NotebookLM連携 AI動画制作 支援ビューワー:各種指示書(プロンプト)の生成。
  • Google AI Studio(Gemini 2.5 Pro推奨):ビューワーで生成した指示書を実行し、具体的なプロンプトテキストを取得。
  • ローカルツールセット:音声分離、画像リネーム、個別クリップ作成など。
  • Google Colabノートブック:
    • Stable Diffusion Forge 総合環境構築セット(FLUXモデル編):立ち絵画像、スライドショー用画像の生成。
    • Wav2Lip標準リップシンク(Python3.9):リップシンク動画の生成。
  • 動画編集ソフト(CapCut推奨、またはDaVinci Resolve):全素材の最終統合、編集、書き出し。

また、「共通フロー」のページで準備した以下の素材が手元にあることを確認してください。

  • ナレーション音声ファイル:input/input_audio.wav
  • 最終調整済みSRTファイル(人間閲覧用):「共通フロー」のステップ8で、あなたが動画編集ソフトからエクスポートした、最終調整済みのSRTファイル。(例:manual_adjusted.srtなど、ご自身で保存したもの)

ステップ1:話者分離音声の準備と手動調整(リップシンク用)

より自然なリップシンク動画を作成するために、まずナレーション音声から各話者の音声を分離し、手動で調整します。

  1. ローカルツールによる話者分離:
    • 「共通フロー」で準備したinput/input_audio.wavが所定の場所にあることを確認します。
    • ローカルツールセットのルートフォルダにある実行スクリプトtool_音声の話者分離.bat(Macの場合は.command)を実行します。
    • 処理が完了すると、output/speaker_output/フォルダ内に、話者ごとにマスク(分離)された音声ファイル(例:SPEAKER_00_masked.wavSPEAKER_01_masked.wavなど)が生成されます。
  2. 動画編集ソフトでの手動確認・調整:
    • お使いの動画編集ソフト(CapCutを推奨、またはDaVinci Resolve)を起動します。
    • 生成された分離音声ファイル群(例:SPEAKER_00_masked.wavSPEAKER_01_masked.wav)を、それぞれ別のオーディオトラックに読み込みます。また、元のナレーション音声ファイル(input/input_audio.wav)も別のトラックに配置しておくと、分離音声で欠落している箇所がないか比較・確認する際に役立ちます。
    • 各トラックの音声を再生し、本来その話者が発言していない箇所に別の話者の声が混入していないか、または必要な音声が欠落していないかを注意深く確認します。分離処理は完璧ではないため、この手動調整が非常に重要です。
    • 調整例:「男性ナレーター」用のトラックに「女性ナレーター」の声が入り込んでいる場合、その部分を切り取り、「女性ナレーター」用のトラックの適切な位置(元の発話タイミングと合う場所)にペーストします。逆も同様です。これにより、各トラックにはその話者の純粋な音声のみが含まれるようにします。
  3. 調整済み音声の書き出し:
    • 調整が完了したら、各オーディオトラックを個別の音声ファイルとして書き出します。ファイル形式はWAVを推奨します。
    • ファイル名は、後で分かりやすいように話者名を含めておきましょう(例:male_narrator_final.wavfemale_narrator_final.wav)。
  4. Google Driveへのアップロード:
    • 書き出した話者別の最終調整済み音声ファイルを、ご自身のGoogle Drive内のWav2Lip入力用フォルダ(例:Wav2Lip_Input)にアップロードします。

ステップ2:立ち絵の準備

次に、リップシンクさせるキャラクターの立ち絵(静止画または短い動画)を準備します。

2.1. 静止画の立ち絵を準備する場合

  1. ビューワーでプロンプト生成指示書を作成:
    • NotebookLM連携 AI動画制作 支援ビューワー(パスワード:Maum_Na_0304_Natty)を開き、「立ち絵生成」タブに移動します。
    • 「立ち絵プロンプト生成指示書」セクションのフォームに以下の情報を入力します。
      • テーマ:生成したい立ち絵の全体的な雰囲気やスタイル(例:サイバーパンク風のストリートウェア、クールな雰囲気)。
      • 生成する男女ペアのセット数:一度に生成する男性と女性のキャラクターペアの数(例:3)。
      • 固定プロンプト(全プロンプト共通):生成する全ての立ち絵プロンプトに共通して含めたい品質向上やスタイル指定のキーワード(例:High quality、ultra-detailed、8K UHD)。
      • 追加指示(服装やキャラクターに関する詳細指定):各セットのキャラクターの服装、髪型、年齢層などの具体的な指示(例:女性はロングヘアで赤いジャケット、男性は短髪で青いシャツ。現代的なカジュアルウェア。20代前半。)。
    • 入力後、「立ち絵プロンプト生成指示書をコピー」ボタンをクリックします。
  2. Google AI Studioでプロンプト取得:
    • Google AI StudioGemini 2.5 Pro推奨)を開き、コピーした指示書を貼り付けて実行します。
    • AIが、FLUXモデルで立ち絵を生成するための具体的なプロンプト(男女ペアで複数セット分)を出力します。これをコピーしておきます。
  3. Google Colabで画像生成:
    • Stable Diffusion Forge 総合環境構築セット(FLUXモデル編)のColabノートブックを開きます。
    • 必ず「ファイル」メニュー→「ドライブにコピーを保存」を選択し、ご自身のGoogle Driveにノートブックのコピーを作成してから使用してください。
    • ノートブックの指示に従い、Civitai APIキーの設定、必要なFLUX系チェックポイントモデルの選択・ダウンロードを行います。
    • WebUIが起動したら、取得したプロンプト群(Google AI Studioからコピーしたもの)を、Forge WebUIの画面下部にある「Script」ドロップダウンメニューから「Prompts from file or Textbox」を選択して表示されるテキストボックスに、全て貼り付けます。その後、「Generate」ボタンをクリックすることで、各プロンプトに対応する画像が一括で生成されます。
    • 推奨される画像サイズは、正方形であれば1024×1024ピクセル、横長であれば1280×720ピクセルなどです。
    • 生成した立ち絵画像をPCにダウンロードします。
  4. Google Driveへのアップロード:
    • ダウンロードした立ち絵画像を、ステップ1で使用したGoogle DriveのWav2Lip入力用フォルダ(例:Wav2Lip_Input)にアップロードします。

2.2. (応用)動画の立ち絵を準備する場合

静止画ではなく、キャラクターがわずかに動く短い動画を立ち絵として使用すると、よりリアルなリップシンク動画になることがあります。この手法の詳細は「応用テクニック集:動画表現を豊かにするヒントとYouTube発信のコツ」ページで解説しますが、ここでは簡単な流れのみ紹介します。

  1. ビューワーで動画用プロンプト指示書を作成:
    • ビューワーの「立ち絵生成」タブにある「立ち絵動画プロンプト指示書」の「指示書をコピー」ボタンをクリックします。
  2. Google AI Studioでプロンプト取得:
    • Google AI Studio(Gemini 2.5 Pro推奨)で指示書を実行し、動画生成AI向けのプロンプトを取得します。
  3. 外部AIツールで動画生成:
    • CapCutの動画生成機能やFramePackなど、お使いの動画生成AIツールで、2.1で作成した静止画の立ち絵を元に、プロンプトに従って微細な動き(例:まばたき、体のわずかな揺れ)をつけた短い動画(5〜10秒程度)を生成します。
    • 注意点:リップシンクの精度を保つため、生成する動画ではキャラクターの顔が隠れたり、極端に横を向いたりするなど、顔認識の妨げになる動きは避けてください。そのような動画はリップシンクに適さない場合があります。
  4. Google Driveへのアップロード:
    • 生成した立ち絵動画を、Google DriveのWav2Lip入力用フォルダにアップロードします。

さて、ステップ1で話者分離した音声、ステップ2でリップシンクさせるための立ち絵(静止画または動画)の準備が整いましたね。いよいよ次は、これらを組み合わせてキャラクターが実際に話しているように見えるリップシンク動画を作成していきます。

Google Colabを使ったWav2Lipの操作に不安がある方や、全体の流れを映像で確認したい方は、以下の動画が参考になります。この動画では、準備した話者分離音声と立ち絵をWav2Lipで結合し、リップシンク動画を生成する具体的な手順に絞って解説しています。

【動画解説】Wav2Lipで話者分離音声からリップシンク動画を作成する流れ

動画で大まかな流れを掴んだら、下の「ステップ3」でより詳細な手順を確認しながら、ご自身の環境で作業を進めていきましょう!


ステップ3:リップシンク動画の作成

準備した立ち絵(静止画または動画)と話者別音声を使って、Wav2Lipでリップシンク動画を生成します。

  1. Colabノートブックを開き、初期設定を行う:
    • Wav2Lip標準リップシンク(Python3.9)のColabノートブックを開きます。
    • 必ず「ファイル」メニュー→「ドライブにコピーを保存」を選択し、ご自身のGoogle Driveにノートブックのコピーを作成してから使用してください。
    • ノートブック内の「入力ファイルの準備(Wav2Lip)」セルを見つけ、そのセル内のフォームに以下のパスを事前に指定・編集します。
      • 顔が写っている静止画または動画のパス(gdrive_face_path):ステップ2でGoogle Driveにアップロードした立ち絵画像または立ち絵動画のフルパスを指定します(例:/content/drive/MyDrive/Wav2Lip_Input/tachie_male.png)。
      • 喋らせたい音声ファイルのパス(gdrive_audio_path):ステップ1でGoogle Driveにアップロードした、リップシンクさせたいキャラクターの話者別最終調整済み音声ファイルのフルパス(例:/content/drive/MyDrive/Wav2Lip_Input/male_narrator_final.wav)。
      • Colabへのパス指定は、Google Driveでファイル名を「名前を変更」から拡張子も含めてコピーし、フォルダパスと結合するのが確実です(拡張子の大文字小文字対策)。
    • (オプション)ノートブック内の「結果のGoogle Driveへの保存(Wav2Lip)」セルにあるgdrive_save_pathも、必要であれば事前に希望の保存先パスに編集できます。編集しない場合、デフォルトではご自身のマイドライブ内のWav2Lip_Outputフォルダに結果が保存されます。
    • 推奨GPU:このノートブックはL4以上のGPU環境での実行を推奨します。Colabの無料版ではGPUの割り当てに制限があるため、必要に応じてColab Proなどの有料プランをご検討ください。
  2. すべてのセルを実行し、リップシンク動画を生成・保存する:
    • 上記パスの設定が完了したら、ノートブック上部の「ランタイム」メニューから「すべてのセルを実行」を選択します。
    • 処理が進行し、途中でGoogle Driveへのアクセス許可を求めるポップアップが表示されたら、「Google Driveに接続」または「許可」を選択してください(このマウント許可の操作は手動で行う必要があります。許可後は再び自動で処理が進行します)
    • 環境セットアップ、モデルダウンロード(初回のみ)、入力ファイルのコピー、リップシンク処理、結果のGoogle Driveへの保存までが自動的に行われます。
    • 処理が完了すると、生成されたリップシンク動画は、gdrive_save_pathで指定されたGoogle Driveのパスに自動で保存されます。
  3. 生成された動画のダウンロード:
    • Google Driveに保存されたリップシンク動画を、ご自身のPCに手動でダウンロードします。
  4. 複数キャラクターの場合:
    • 動画に登場するキャラクターが複数いる場合は、キャラクターごとに上記「初期設定」(Colabノートブック内の入力ファイルパスの変更)を行い、再度「ランタイム」メニューから「すべてのセルを実行」してください。環境セットアップやモデルダウンロードの処理は(2回目以降であれば)自動的にスキップされ、新しい入力ファイルでリップシンク動画が効率的に生成されます。

ステップ4:スライドショー用画像の準備

次に、ナレーションの内容に合わせて表示するスライドショー用の画像を準備します。

  1. プロンプト用SRTテキストの作成:
    • ローカルツールセットのルートフォルダにある実行スクリプト2_SRTからプロンプト作成.bat(または.command)を実行します。
    • このツールは、講座の「共通フロー」で最終調整したinput/input_subtitles.srtを元に動作し、処理の過程で句読点を自動的に除去します。そのため、事前の句読点除去作業は不要です。
    • これにより、各字幕テキストが1行にまとめられたoutput/prompt_srt.txtファイルが生成されます。
    • 生成されたoutput/prompt_srt.txtを開き、中身のテキスト全体をコピーします。
  2. ビューワーで画像生成プロンプト指示書を作成:
    • ビューワーを開き、「SRT画像プロンプト生成」タブに移動します。
    • フォームに以下の情報を入力します。
      • テーマ:生成する画像全体のテーマや雰囲気、動画の主題(例:未来都市の日常、自然の風景)。
      • 字幕テキストリスト(各行が1セグメントに対応):上記1-dでコピーしたprompt_srt.txtの内容を貼り付けます。
      • LoRA情報(任意):(この項目は「応用テクニック集:動画表現を豊かにするヒントとYouTube発信のコツ」ページで詳しく解説します。最初は空欄で構いません。)
      • 先頭追加プロンプト:生成する全ての画像プロンプトの先頭に共通して追加したい指示。
      • 末尾追加プロンプト:生成する全ての画像プロンプトの末尾に共通して追加したい指示。
    • 入力後、「FLUX用コピー」ボタンをクリックします。
  3. Google AI Studioでプロンプト群を取得:
    • Google AI Studio(Gemini 2.5 Pro推奨)を開き、コピーした指示書を貼り付けて実行します。Temperatureは「0.7」程度を推奨します。
    • AIが、SRTの各行に対応するFLUXモデル用の画像生成プロンプト群を出力します。これをコピーしておきます。
  4. Google Colabで画像生成:
    • ステップ2で使用した「Stable Diffusion Forge 総合環境構築セット(FLUXモデル編)」のColabノートブック(ご自身のドライブにコピーしたもの)を再度使用します。
    • 取得したプロンプト群(Google AI Studioからコピーしたもの)を、Forge WebUIの画面下部にある「Script」ドロップダウンメニューから「Prompts from file or Textbox」を選択して表示されるテキストボックスに、全て貼り付けます。その後、「Generate」ボタンをクリックすることで、各プロンプトに対応する画像が一括で生成されます。
    • 生成された画像をPCにダウンロードします。
  5. ローカルで画像整理(任意推奨):
    • ダウンロードしたスライドショー用画像を、ローカルツールセット内のinput/images/フォルダに全て配置します。
    • この後の工程は自動化されていますが、事前に画像の並び順を確認したい場合や、手動で画像の順番を入れ替えたい場合は、ここで実行スクリプト3_スライドショー画像リネーム.bat(または.command)を実行すると便利です。実行すると、input/images/内の画像がファイル名順にimg_0001.pngimg_0002.png…と連番にリネームされ、管理しやすくなります。
    • 【ポイント】このリネーム作業は省略可能です。後続の実行スクリプト4_スライドショー動画クリップ生成は、フォルダ内の画像を自動でソートして処理するため、事前にリネームしていなくても問題なく動作します。

【重要ポイント】この後の動画クリップ生成(ステップ5)で、もし最終的な動画のテロップから句読点を除去したい場合は、ここで1_SRT一括整形.batツールを使って句読点除去を行い、その結果をinput/input_subtitles.srt手動で上書き保存してください。逆に、句読点を残したい場合は、この作業は不要です。


ステップ5:個別画像クリップの作成

スライドショー用画像と、現在のinput/input_subtitles.srtの内容を元に、各字幕に対応する短い動画クリップと、タイムスタンプが再調整された新しいSRTファイルを作成します。

【注意】このツールはinput/input_subtitles.srtのテキストをそのまま使用します。もし動画のテロップから句読点を除去したい場合は、このツールを実行する前にinput/input_subtitles.srtを編集しておく必要があります。

  1. ローカルツールセットのルートフォルダにある実行スクリプト4_スライドショー動画クリップ生成.bat(または.command)を実行します。
  2. 処理が完了すると、以下のファイル・フォルダが生成されます。
    • output/individual_clips/フォルダ:各字幕に対応した個別の短い動画クリップ群(例:clip_0001.mp4clip_0002.mp4…)。
    • output/adjusted_subtitles.srt上記個別クリップの実際の長さに合わせてタイムスタンプが調整された、新しいSRTファイル。(このSRTは句読点なしのテキストを含みます)

ステップ6:動画編集ソフトでの最終統合

これまでに作成した全ての素材を動画編集ソフトに読み込み、最終的な動画として仕上げます。

  1. お使いの動画編集ソフト(CapCutを推奨、またはDaVinci Resolve)を起動し、新規プロジェクトを作成します。
  2. 映像素材の配置と初期調整:
    • ステップ3で作成した各キャラクターのリップシンク動画(例:male_lipsync.mp4female_lipsync.mp4)をタイムラインに配置します。次に、リップシンク動画のグリーンバック背景を除去します。CapCutの場合、動画クリップを選択し、画面右上のパネルから「動画」→「背景を削除」タブを選択し、「クロマキー」にチェックを入れます。「カラーピッカー」で動画内の緑色の背景部分を選択し、以下の設定を目安に調整します(画像によっては微調整が必要です)。
      • 濃度:20程度
      • シャドウ:0程度
      • エッジをぼかす:20程度
      • エッジのクリーンアップ:20程度
      • (「エッジをぼかす」や「エッジのクリーンアップ」はPro版の機能です。無料版では使用できません。)
    • その後、リップシンク動画のサイズと位置を調整します。例えば、男女2人の各リップシンク動画のスケール(サイズ)を50%程度に縮小し、画面の左右の端にそれぞれ配置する、といったレイアウトが考えられます。
    • ステップ5で作成した個別画像クリップ群(output/individual_clips/内のファイル)を、タイムラインのリップシンク動画の下のレイヤーに配置します。
  3. 字幕(テロップ)の追加とタイミング調整:
    • 【重要ワークフロー】ここでは、2種類のSRTファイルを使い分け、効率的にタイミング調整とテロップ表示を行います。このテクニックを最大限に活用するには、ステップ5を実行する前にinput/input_subtitles.srtを句読点なしの状態にし、別途、句読点ありの最終調整済みSRTファイルを手元に保管しておくことが理想です。その上で、以下の2つのSRTファイルを動画編集ソフトに読み込みます。
      • 表示用SRT(句読点あり):「共通フロー」で完成させた、人間が読むための最終調整済みSRTファイル(句読点あり)をインポートします。これが、最終的に視聴者が見るテロップになります。
      • タイミングガイド用SRT(句読点なし):ステップ5で作成した調整済みSRTファイル(output/adjusted_subtitles.srt)もインポートし、画像クリップと完全に同期したタイミング情報を持つガイドとして使用します。
    • タイミング調整の手順:
      • タイムライン上で、ガイド用SRTのトラックを下段に、表示用SRTのトラックを上段に配置します。
      • 下段のガイド用SRTの各クリップの開始位置と終了位置に合わせて、上段の表示用SRTの各クリップの長さをドラッグして調整します。動画編集ソフトのスナップ機能を有効にすると、正確に合わせやすくなります。
      • 全てのクリップのタイミング調整が終わったら、下段のガイド用SRTのトラックは不要になるため、ミュートまたは削除してください。
      • この手順により、句読点の再入力という手間を省きつつ、画像と同期した正確なタイミングのテロップを効率的に作成できます。
    • テロップの工夫:より視覚的に分かりやすくするために、話者ごとにテロップのトラックを分け、それぞれのトラックでテロップの色、フォント、スタイルなどを変更することをお勧めします。
      • まず、インポートした表示用SRTのテロップ全体を1つのトラックに配置します。
      • ステップ1で調整した話者別の最終音声の波形を見て、各テロップがどちらの話者に対応するかを確認します。
      • 例えば、「男性ナレーター」の発言に対応するテロップを選択し、それらを新しい専用のテロップトラックに移動させます。この作業を、動画全体の男性ナレーターの発言箇所について繰り返します。これにより、元のトラックには「女性ナレーター」のテロップが残る形になり、話者ごとのトラック分けができます。
      • 各話者用に分けたテロップトラックの行全体を選択し、それぞれのトラックのテロップスタイル(色、フォントなど)を話者ごとに一括で変更します。例えば、男性ナレーターのテロップは青色、女性ナレーターのテロップは赤色といった具合です。
      • さらに、テロップの表示にタイプライター風のアニメーションなどの動きを加えると、よりプロフェッショナルな印象になります。
  4. 映像の視覚的調整(トランジション・カラーグレーディング):
    • 個別画像クリップ間の切り替えなどにトランジション効果を追加します。
    • 必要に応じて、映像全体の色合いや明るさを調整し、動画全体の見た目の印象を統一して、より見栄えを良くします。
  5. 映像要素のネスト化と音声準備:
    • タイムライン上に配置した映像関連の要素全て(具体的には、調整済みのリップシンク動画、個別画像クリップ群、話者別に設定したテロップトラック群)を選択します。
    • 選択したこれらの映像要素を1つの「複合クリップ」(または「ネストシーケンス」など)にまとめます。
    • 作成した複合クリップ全体の音量をミュート(無音)にします。これにより、リップシンク動画に含まれていた(品質が低下している可能性のある)分離音声は使用されず、口の動きと映像・テロップのみがこの複合クリップに残ります。
  6. メイン音声とBGMの配置・調整:
    • 【重要】このステップに進む前に、ステップ1で話者分離・調整に使用した個別の音声トラック(例:male_narrator_final.wavfemale_narrator_final.wavなど、リップシンク動画の生成に使用したもの)は、タイムライン上から削除するか、ミュートしておいてください。これにより、意図しない音声の重複を防ぎます。
    • その後、「共通フロー」で準備した、元の高品質なナレーション音声ファイル(input/input_audio.wav)を、オーディオトラックに配置します。これが動画のメインナレーションとなります。
    • 動画の雰囲気に合ったBGMを別のオーディオトラックに配置します。
    • BGMの音量を調整します。ナレーションの邪魔にならないよう、音量を-20dBから-30dB程度を目安に下げるとバランスが取りやすいです。最終的にはご自身の耳で確認して調整してください。
    • 必要に応じて効果音などを追加し、全体の音量バランスを最終調整します。
  7. エンディングの演出(フェードアウト):
    • ステップ6-eで作成した複合クリップ(映像とテロップがまとめられたもの)の末尾に、ビデオフェードアウト(徐々に暗転する効果)を適用します。
    • 同様に、BGMトラックの末尾にも、オーディオフェードアウト(徐々に無音になる効果)を適用します。
  8. 最終書き出し:
    • 全ての編集が完了したら、動画を書き出します。CapCutの場合、画面右上の「エクスポート」ボタンをクリックし、表示された画面で以下のような設定を確認・調整して書き出します。
      • 名前:動画のファイル名を設定します。
      • 次にエクスポート:保存先のフォルダを指定します。
      • 動画設定:
        • 解像度:通常は「1080P」で十分ですが、必要に応じて変更します。
        • ビットレート:「おすすめ」のままで問題ないことが多いです。
        • コーデック:一般的に広く使われている「H.264」を選択します。
        • フォーマット:「mp4」を選択します。
        • フレームレート:プロジェクト設定に合わせますが、通常は「30fps」または「60fps」を選択します。
      • (オーディオ設定は、通常は動画と一緒にエンコードされるため、個別の設定は不要な場合が多いです。)
      • 設定後、画面下部の「エクスポート」ボタンをクリックして書き出しを開始します。

まとめ・次のステップへ

お疲れ様でした!これで、「リップシンク+画像スライドショー動画」の基本的な制作フローが完了しました。多くのツールを連携させるため手順は複雑に感じるかもしれませんが、慣れれば非常に効率的に高品質な動画を制作できるようになります。

ぜひ、このパターンをベースに様々な動画制作に挑戦してみてください。次は、制作パターン②を学ぶか、「応用テクニック集:動画表現を豊かにするヒントとYouTube発信のコツ」ページでさらにスキルアップを目指しましょう!

続けて学ぶ:制作パターン②
さらにスキルアップ:応用テクニック集

講座メニュー

広告