制作パターン②
ナレーションと同期した画像スライドショー動画
(リップシンクなし)

この動画では、制作パターン②の全工程をステップバイステップで詳しく解説しています。

お時間のある方は、まずこちらで全体の流れをご確認いただくと、以降の文章理解がよりスムーズになりますよ。


このページでは、「制作パターン①」からリップシンクの工程を省略し、ナレーション音声とそれに同期した画像スライドショーで構成される、より手軽に制作可能な解説動画のフローをステップバイステップで解説します。

このパターンは、キャラクターの口パクアニメーションは必要ないものの、視覚的な情報として画像スライドショーを活用したい場合に適しています。基本的な流れはパターン①と共通する部分も多いため、効率的に習得できるでしょう。


はじめに:このパターンで必要な主要ツールのおさらい

この制作パターンでは、以下の主要なツールを連携させて使用します。各ツールの準備がまだの方は、「講座受講のための準備」ページをご確認ください。

  • NotebookLM連携 AI動画制作 支援ビューワー:各種指示書(プロンプト)の生成。
  • Google AI Studio(Gemini 2.5 Pro推奨):ビューワーで生成した指示書を実行し、具体的なプロンプトテキストを取得。
  • ローカルツールセット:音声分離(テロップ調整補助用)、画像リネーム、個別クリップ作成など。
  • Google Colabノートブック:
    • Stable Diffusion Forge 総合環境構築セット(FLUXモデル編など):スライドショー用画像の生成。
  • 動画編集ソフト(CapCut推奨、またはDaVinci Resolve):全素材の最終統合、編集、書き出し。

また、「共通フロー」のページで準備した以下の素材が手元にあることを確認してください。

  • ナレーション音声ファイル:input/input_audio.wav
  • 最終調整済みSRTファイル(人間閲覧用):「共通フロー」のステップ8で、あなたが動画編集ソフトからエクスポートした、最終調整済みのSRTファイル。(例:manual_adjusted.srtなど、ご自身で保存したもの)

(任意推奨)ステップ0:話者分離音声の準備(テロップ調整補助用)

このパターンではリップシンク動画は作成しませんが、後の動画編集ソフトでのテロップ調整(話者ごとの色分けなど)を効率的かつ正確に行うために、ナレーション音声から各話者の音声を分離しておくことを推奨します。

  1. ローカルツールによる話者分離:
    • 「共通フロー」で準備したinput/input_audio.wavが所定の場所にあることを確認します。
    • ローカルツールセットのルートフォルダにある実行スクリプトtool_音声の話者分離.bat(または.command)を実行します。
    • 処理が完了すると、output/speaker_output/フォルダ内に、話者ごとにマスク(分離)された音声ファイル(例:SPEAKER_00_masked.wavSPEAKER_01_masked.wavなど)が生成されます。
  2. 動画編集ソフトでの手動確認・調整:
    • お使いの動画編集ソフト(CapCutを推奨、またはDaVinci Resolve)を起動します。
    • 生成された分離音声ファイル群を、それぞれ別のオーディオトラックに読み込みます。また、元のナレーション音声ファイル(input/input_audio.wav)も別のトラックに配置しておくと、分離音声で欠落している箇所がないか比較・確認する際に役立ちます。
    • 各トラックの音声を再生し、本来その話者が発言していない箇所に別の話者の声が混入していないか、または必要な音声が欠落していないかを注意深く確認します。
    • 調整例:「話者A」用のトラックに「話者B」の声が入り込んでいる場合、その部分を切り取り、「話者B」用のトラックの適切な位置(元の発話タイミングと合う場所)にペーストします。
  3. 調整済み音声の書き出し(ローカル保存):
    • 調整が完了したら、各オーディオトラックを個別の音声ファイルとして書き出します。ファイル形式はWAVを推奨します。
    • ファイル名は、後で分かりやすいように話者名を含めておきましょう(例:speaker_A_for_check.wavspeaker_B_for_check.wav)。これらのファイルは、PCの作業フォルダなど、分かりやすい場所に保存しておきます。

【重要】ここで作成した分離音声は、あくまでテロップ調整時の確認用です。最終的な動画に使用するメインナレーションは、「共通フロー」で準備した高品質なinput/input_audio.wavを使用します。


ステップ1:スライドショー用画像の準備

まず、ナレーションの内容に合わせて表示するスライドショー用の画像を準備します。この手順は「制作パターン①」のステップ4とほぼ同一ですが、より効率的なフローを解説します。

  1. プロンプト用SRTテキストの作成:
    • ローカルツールセットのルートフォルダにある実行スクリプト2_SRTからプロンプト作成.bat(または.command)を実行します。
    • このツールは、講座の「共通フロー」で最終調整したinput/input_subtitles.srtを元に動作し、処理の過程で句読点を自動的に除去します。そのため、事前の句読点除去作業は不要です。
    • これにより、各字幕テキストが1行にまとめられたoutput/prompt_srt.txtファイルが生成されます。
    • 生成されたoutput/prompt_srt.txtを開き、中身のテキスト全体をコピーします。
  2. ビューワーで画像生成プロンプト指示書を作成:
    • NotebookLM連携 AI動画制作 支援ビューワー(パスワード:Maum_Na_0304_Natty)を開き、「SRT画像プロンプト生成」タブに移動します。
    • フォームに以下の情報を入力します。
      • テーマ:生成する画像全体のテーマや雰囲気、動画の主題(例:未来都市の日常、自然の風景)。
      • 字幕テキストリスト(各行が1セグメントに対応):上記1-dでコピーしたprompt_srt.txtの内容を貼り付けます。
      • LoRA情報(任意):(この項目は「応用テクニック集:動画表現を豊かにするヒントとYouTube発信のコツ」ページで詳しく解説します。最初は空欄で構いません。)
      • 先頭追加プロンプト:生成する全ての画像プロンプトの先頭に共通して追加したい指示。
      • 末尾追加プロンプト:生成する全ての画像プロンプトの末尾に共通して追加したい指示。
    • 入力後、「FLUX用コピー」ボタンをクリックします。
  3. Google AI Studioでプロンプト群を取得:
    • Google AI StudioGemini 2.5 Pro推奨)を開き、コピーした指示書を貼り付けて実行します。Temperatureは「0.7」程度を推奨します。
    • AIが、SRTの各行に対応するFLUXモデル用の画像生成プロンプト群を出力します。これをコピーしておきます。
  4. Google Colabで画像生成:
    • Stable Diffusion Forge 総合環境構築セット(FLUXモデル編)」のColabノートブック(ご自身のドライブにコピーしたもの)を使用します。
    • 取得したプロンプト群(Google AI Studioからコピーしたもの)を、Forge WebUIの画面下部にある「Script」ドロップダウンメニューから「Prompts from file or Textbox」を選択して表示されるテキストボックスに、全て貼り付けます。その後、「Generate」ボタンをクリックすることで、各プロンプトに対応する画像が一括で生成されます。
    • 生成された画像をPCにダウンロードします。
  5. ローカルで画像整理(任意推奨):
    • ダウンロードしたスライドショー用画像を、ローカルツールセット内のinput/images/フォルダに全て配置します。
    • この後の工程は自動化されていますが、事前に画像の並び順を確認したい場合や、手動で画像の順番を入れ替えたい場合は、ここで実行スクリプト3_スライドショー画像リネーム.bat(または.command)を実行すると便利です。実行すると、input/images/内の画像がファイル名順にimg_0001.pngimg_0002.png…と連番にリネームされ、管理しやすくなります。
    • 【ポイント】このリネーム作業は省略可能です。後続の実行スクリプト4_スライドショー動画クリップ生成は、フォルダ内の画像を自動でソートして処理するため、事前にリネームしていなくても問題なく動作します。

ステップ2:個別画像クリップの作成

スライドショー用画像と、句読点除去済みのSRTファイルを使って、各字幕に対応する短い動画クリップと、それらに同期する新しいSRTファイルを作成します。この手順は「制作パターン①」のステップ5と同一です。

  1. ローカルツールセットのルートフォルダにある実行スクリプト4_スライドショー動画クリップ生成.bat(または.command)を実行します。
  2. 処理が完了すると、以下のファイル・フォルダが生成されます。
    • output/individual_clips/フォルダ:各字幕に対応した個別の短い動画クリップ群(例:clip_0001.mp4clip_0002.mp4…)。
    • output/adjusted_subtitles.srt上記個別クリップの実際の長さに合わせてタイムスタンプが調整された、新しいSRTファイル。(このSRTは句読点なしのテキストを含みます)

ステップ3:動画編集ソフトでの最終統合

これまでに作成した全ての素材を動画編集ソフトに読み込み、最終的な動画として仕上げます。

  1. お使いの動画編集ソフト(CapCutを推奨、またはDaVinci Resolve)を起動し、新規プロジェクトを作成します。
  2. 映像素材の配置と初期調整:
    • ステップ2で作成した個別画像クリップ群(output/individual_clips/内のファイル)をタイムラインに配置します。
  3. 字幕(テロップ)の追加と調整:
    • 【重要ワークフロー】パターン①と同様に、2種類のSRTファイルを使い分けて効率的に作業します。
      • 表示用SRT(句読点あり):「共通フロー」で作成した、あなた自身が手動で最終調整したSRTファイルをインポートします。これが最終的に視聴者が見るテロップです。
      • タイミングガイド用SRT(句読点なし):ステップ2で作成した調整済みSRTファイル(output/adjusted_subtitles.srt)もインポートし、画像クリップと完全に同期したガイドとして使用します。
    • タイミング調整の手順:
      • タイムライン上で、ガイド用SRTのトラックを下段に、表示用SRTのトラックを上段に配置します。
      • 下段のガイド用SRTの各クリップの開始・終了位置に合わせて、上段の表示用SRTの各クリップの長さを調整します。
      • 調整が終わったら、下段のガイド用SRTのトラックは不要になるため、ミュートまたは削除します。
    • テロップの工夫:より視覚的に分かりやすくするために、話者ごとにテロップのトラックを分け、それぞれのトラックでテロップの色、フォント、スタイルなどを変更することをお勧めします。
      • まず、インポートした表示用SRTのテロップ全体を1つのトラックに配置します。
      • 「(任意推奨)ステップ0」で作成した話者分離音声をタイムラインに配置し、その波形や音声を参考に、各テロップの話者を特定します。
      • 例えば、「話者A」の発言に対応するテロップを選択し、それらを新しい専用のテロップトラックに移動させます。この作業を、動画全体の「話者A」の発言箇所について繰り返します。
      • 各話者用に分けたテロップトラックの行全体を選択し、それぞれのトラックのテロップスタイル(色、フォントなど)を話者ごとに一括で変更します。
      • さらに、テロップの表示にタイプライター風のアニメーションなどの動きを加えると、よりプロフェッショナルな印象になります。
  4. 映像の視覚的調整(トランジション・カラーグレーディング):
    • 個別画像クリップ間の切り替えなどにトランジション効果を追加します。
    • 必要に応じて、映像全体の色合いや明るさを調整し、動画全体の見た目の印象を統一して、より見栄えを良くします。
  5. 映像要素のネスト化:
    • タイムライン上に配置した映像関連の要素全て(具体的には、個別画像クリップ群、話者別に設定したテロップトラック群)を選択します。
    • 選択したこれらの映像要素を1つの「複合クリップ」(または「ネストシーケンス」など)にまとめます。
  6. メイン音声とBGMの配置・調整:
    • (テロップ調整に使用した分離音声トラックは、この段階でミュートするか削除してください。)
    • 「共通フロー」で準備した、元の高品質なナレーション音声ファイル(input/input_audio.wav)を、オーディオトラックに配置します。これが動画のメインナレーションとなります。
    • 動画の雰囲気に合ったBGMを別のオーディオトラックに配置します。
    • BGMの音量を調整します。ナレーションの邪魔にならないよう、音量を-20dBから-30dB程度を目安に下げるとバランスが取りやすいです。最終的にはご自身の耳で確認して調整してください。
    • 必要に応じて効果音などを追加し、全体の音量バランスを最終調整します。
  7. エンディングの演出(フェードアウト):
    • ステップ3-eで作成した複合クリップ(映像とテロップがまとめられたもの)の末尾に、ビデオフェードアウト(徐々に暗転する効果)を適用します。
    • 同様に、BGMトラックの末尾にも、オーディオフェードアウト(徐々に無音になる効果)を適用します。
  8. 最終書き出し:
    • 全ての編集が完了したら、動画を書き出します。CapCutの場合、画面右上の「エクスポート」ボタンをクリックし、表示された画面で以下のような設定を確認・調整して書き出します。
      • 名前:動画のファイル名を設定します。
      • 次にエクスポート:保存先のフォルダを指定します。
      • 動画設定:
        • 解像度:通常は「1080P」で十分ですが、必要に応じて変更します。
        • ビットレート:「おすすめ」のままで問題ないことが多いです。
        • コーデック:一般的に広く使われている「H.264」を選択します。
        • フォーマット:「mp4」を選択します。
        • フレームレート:プロジェクト設定に合わせますが、通常は「30fps」または「60fps」を選択します。
      • (オーディオ設定は、通常は動画と一緒にエンコードされるため、個別の設定は不要な場合が多いです。)
      • 設定後、画面下部の「エクスポート」ボタンをクリックして書き出しを開始します。

まとめ・次のステップへ

お疲れ様でした!これで、「ナレーション+画像スライドショー動画」の基本的な制作フローが完了しました。リップシンクがない分、パターン①よりも手軽に制作できるのが特徴です。また、任意で話者分離音声を作成することで、テロップ調整の精度も向上させることができます。

このパターンも様々な動画に応用可能です。ぜひ、パターン①と比較しながら、ご自身の作りたい動画のスタイルに合わせて活用してみてください。次は、「応用テクニック集:動画表現を豊かにするヒントとYouTube発信のコツ」ページでさらにスキルアップを目指しましょう!

次のステップ:応用テクニックとYouTube発信のコツ

講座メニュー

広告