ピンク髪の女性がゴーグルとヘッドフォンを装着し笑顔。背景は黄色で「音声からAI動画化!」「NotebookLMで動画革命!」の文字。AI動画制作講座のサムネイル。AI動画化, NotebookLM, 動画制作, AIツール, 音声から動画

AI ツール・サービス 画像生成AI

【完全版】NotebookLMとAIツールで動画制作を自動化!字幕生成から画像生成まで全手順解説


AIによる動画要約

この要約は、AIを使用してYouTube動画の字幕から自動生成されました。動画の内容を理解する一助となれば幸いです。

この動画では、NotebookLMで作成した音声を元に、AIツールや専用のローカルツールセット、ビューアーを活用して効率的に動画を制作する一連のプロセスについて、デモンストレーション形式で解説しています。

なお、この要約文は「YouTube動画字幕からの要約生成指示書セット」を使用して作成しました。


NotebookLM AI動画講座の概要とツール紹介

この動画は、「NotebookLM AI動画講座」で学べる内容のデモンストレーションです。前提として、NotebookLMで動画の元となる音声は既に作成済みとし、そこからAI動画制作を進める手順を紹介します。

動画制作を支援するために、講座では「NotebookLM連携 AI動画制作 支援ビューアー」と「ローカルツールセット」という2つの主要なツールが提供されます。

ビューアーはNotebookLMの音声概要の品質向上や画像プロンプト生成などに使用し、ローカルツールセットは字幕編集や動画クリップ作成といった多岐にわたる作業を自動化します。


字幕ファイルの生成とAIによる初期編集

最初のステップは、NotebookLMで作成した音声から字幕ファイルを生成することです。動画ではCapCutを推奨しており、音声ファイルを読み込んで自動で字幕を生成します。

生成された直後の字幕(SRTファイル形式)は、細切れになっていたり、文章が途中で途切れていたりするため、そのままでは使用に適しません。

そこで、一度エクスポートしたSRTファイルを、「AI動画制作支援ビューアー」の「SRT修正・結合指示書」機能とGoogle AI Studio(Gemini 2.5 Proなどの最新モデル)を連携させて修正します。

ビューアーで表記揺れ(例:「おきひろ」を英語表記の「OKIHIRO」に統一)の指示リストを入力し、指示書をコピー。SRTファイルの内容と元の音声ファイルと共にAIに読み込ませることで、文脈を理解した高精度な字幕の修正と結合が行われます。

補足情報

  • SRT (SubRip Text)ファイル:字幕のタイミングとテキスト情報を含む標準的なファイル形式です。
  • CapCut:多機能でありながら無料で利用できる動画編集アプリケーションで、自動字幕起こし機能が強力です。
  • Google AI Studio:Googleが提供するウェブベースのツールで、Geminiをはじめとする最新のAIモデルを対話形式で利用したり、API経由でアプリケーションに組み込んだりすることができます。

ローカルツールセットによる字幕の自動調整

AIによって初期編集されたSRTファイルは、次に「ローカルツールセット」内のバッチファイルを使用してさらに調整されます。具体的には、以下の2つの処理が自動で行われます。

  • ギャップ修正:字幕間の不要な間隔(ギャップ)を自動で詰めます。
  • 改行調整:句読点を基準に、字幕の改行を自動で調整し、読みやすくします。

これらの処理により、input_subtitles.srt(初期ファイル)から input_subtitles_gap_fixed.srt(ギャップ修正済み)、そして最終的に input_subtitles_formatted.srt(改行調整済み)というファイルが生成されます。


字幕の手動調整と最終化

自動調整された input_subtitles_formatted.srt ファイルを再度CapCutなどの動画編集ソフトに読み込み、手動での最終調整を行います。主な調整項目は以下の通りです。

  • タイミング調整:音声と字幕の表示タイミングを微調整します。
  • 不要な分割の結合:AIが過度に分割した箇所を結合します。
  • 相槌の削除:会話中の「ええ」「はい」などの相槌は、後の画像プロンプト生成に影響を与えるため、基本的に削除し、前の字幕でカバーします。
  • 画像プロンプトを意識した結合:例えば「揚げ春巻き」と「これを食べているシーン」が別々のテロップになっている場合、「揚げ春巻きを食べているシーン」のように1つのテロップに結合することで、意図した画像が生成されやすくなります。

この手動調整を経ることで、AI動画制作における字幕の品質が向上します。AIによる修正を主とすることで、人間による作業で起こりがちな誤字脱字を大幅に削減できるというメリットもあります。


AIを活用した画像プロンプトの生成

完成したSRTファイルから、動画に使用する画像を生成するためのプロンプトを作成します。

まず、ローカルツールセットのバッチファイルを使用し、SRTファイルの内容を連番付きのテキストファイル(prompt_srt.txt)に変換します。各行に連番を付与するのは、AIが大量の行を処理する際に行数などを間違えるのを防ぐためです。

次に、この連番テキストを「AI動画制作支援ビューアー」の「SRT画像プロンプト生成」タブ内にある「字幕テキストリスト」に貼り付けます。ここでは、以下のような設定が可能です。

  • テーマ:生成したい画像の全体的な雰囲気(例:「ポップでカラフルな面白いイラスト」、「主人公のOKIHIROはアラフォー男性」など)。
  • 先頭固定プロンプト:全てのプロンプトの先頭に共通して挿入する要素。最も効果を強めたいプロンプトを入れます。
  • 末尾固定プロンプト:全てのプロンプトの末尾に共通して挿入する要素(例:「high quality, ultra detailed, 8k UHD」)やLoRAのタグなど。
  • LoRA設定:特定のキーワード(例:「OKIHIRO」)が字幕に含まれる場合に、指定したLoRAのトリガータグを自動で挿入する設定。

これらの設定を元に、ビューアーで指示書を生成し、Google AI Studio (Gemini) に入力することで、各字幕に対応した画像生成用プロンプトのリストが作成されます。

補足情報

  • LoRA (Low-Rank Adaptation):大規模なAIモデル(特に画像生成AI)を、特定のキャラクター、画風、オブジェクトなどを再現するように少ない計算資源で追加学習させる技術です。

Google ColabとStable Diffusionによる画像一括生成

生成されたプロンプトリストを使用して、Google Colab上でStable Diffusion(動画ではStable Diffusion ForgeとFluxモデルを使用)を実行し、画像をまとめて生成します。講座で提供されるColabノートブックのテンプレートを使用し、以下の手順で進めます。

  • 環境設定:Civitai APIキー、使用するモデル(例:Flux.1-schnell)、拡張機能、外部コンポーネントなどを設定します。
  • ランタイム設定:GPUとして高性能なA100 GPUを選択します。
  • Stable Diffusion Forge起動:セル1を実行し、Stable Diffusion Forgeを起動します。起動には数分かかる場合があります。
  • UI設定とパラメータ調整:ForgeのUI上で、使用モデルに合わせた設定(例:Flux UI)、Sampling steps(例:10)、画像サイズ(例:1280x720)、バッチサイズ(例:各プロンプトにつき3枚生成)などを設定します。
  • プロンプト入力と一括生成:Forgeのスクリプト機能「Prompt from file or textbox」に、AIで生成したプロンプトのリストを貼り付け、一括で画像生成を開始します。
  • 画像保存とリソース管理:生成された画像をセル2で保存します。作業終了後は、Colabのリソース消費を避けるため、必ずランタイムを切断・削除します

補足情報

  • Google Colaboratory (Colab):Googleが提供する、ブラウザ上でPythonコードを実行できる無料(一部有料)のサービス。高性能なGPUも利用可能で、AI関連の開発や実験によく用いられます。
  • Stable Diffusion:テキストから高品質な画像を生成できるオープンソースのAIモデルです。Forgeはその派生版で、高速化や効率化が図られています。
  • Flux:Stable Diffusionの新しいモデルアーキテクチャの一つで、より少ないステップ数で高品質な画像を生成できるとされています。
  • A100 GPU:NVIDIA社が開発したデータセンター向けの高性能GPUで、AIの学習や推論処理を高速に実行できます。

生成画像の選別と動画クリップへの自動変換

Google Driveに保存された画像をローカル環境にダウンロードし、ローカルツールセットを使って最終的な動画素材に加工します。

  • 画像の整理と選別:ダウンロードした画像(例:プロンプトごとに3枚ずつ、合計48枚)をローカルツールセットのイメージフォルダに配置します。

    その後、バッチファイル(5b_バッチ画像を振り分けリネーム.bat)を実行すると、画像がバッチごと(例:バッチ1、バッチ2、バッチ3)のフォルダに振り分けられ、連番でリネームされます。これにより、同じプロンプトから生成された複数のバリエーションを比較しやすくなります。
  • ベース画像の選択:各バッチフォルダ内の画像を確認し、最も品質の良い画像のセット(例:バッチ2の16枚)を選択し、再度イメージフォルダにコピーします。
  • 個別クリップ動画の自動作成:ローカルツールセットのバッチファイル(6_画像から個別クリップ動画を作成.bat)を実行します。この際、イメージフォルダ内の画像枚数と、formatted.srt ファイルの字幕行数が一致していることが重要です

    処理が完了すると、各画像が対応する字幕の表示時間と同じ長さの動画クリップとして、個別のファイルで出力されます。
  • 調整済みSRTファイルの利用:クリップ動画生成と同時に、タイミングが微調整された新しいSRTファイル(adjusted_subtitles.srt)も出力されます。動画編集ソフトには、この新しいSRTファイルと生成された動画クリップ群を読み込みます。

最終調整とリップシンク動画制作の可能性

自動生成された動画クリップと調整済みSRTファイルを動画編集ソフト(CapCutなど)に読み込むと、各テロップのタイミングに合わせて画像が切り替わる基本的な動画スライドショーが完成します。

ここからさらに、以下のような最終調整を行います。

  • 画像の差し替え:生成されたバッチ画像の中に、より適切なものがあれば、CapCutの「クリップを入れ替える」機能などで簡単に差し替えることができます。
  • テロップデザイン:文字のフォント、色、サイズ、背景などを調整し、見やすくします。
  • トランジション、BGM、SE:場面転換の効果やBGM、効果音を追加して動画の質を高めます。
  • オープニング・エンディング:必要に応じて追加します。

動画では、画像スライドショー形式以外にも、リップシンク(口パク)動画の制作方法についても触れられています。

例えば、生成したキャラクターの立ち絵を配置し、NotebookLMの音声に合わせて口パクさせることで、キャラクターが会話しているような動画も作成可能です。

このためには、ビューアーの立ち絵生成タブや、別のGoogle Colabノートブックを使用します。


まとめ:AIツールと自動化技術を駆使した動画制作ワークフロー

この動画では、NotebookLMで作成された音声を起点とし、AI動画制作支援ビューアー、ローカルツールセット、そしてGoogle AI Studio (Gemini) やStable DiffusionといったAIモデルを連携させることで、動画編集効率化を実現する具体的なワークフローが紹介されました。

字幕ファイルの生成・編集、画像プロンプトの作成、画像生成、そしてそれらを組み合わせて動画クリップを自動生成するまでの一連の工程は、多くの部分が自動化または半自動化されており、手作業に比べて大幅な時間短縮と品質向上が期待できます。

紹介された「NotebookLM AI動画講座」では、これらのツールや技術を体系的に学ぶことができ、誰でも再現性高くAIを活用した動画制作を行えるようになることを目指しています

  • この記事を書いた人
  • 最新記事
赤い帽子をかぶり、地球の模型を手に持つ男性のイラスト。Tシャツにはスニーカーのイラストが描かれている。AIコンテンツプロンプトエンジニアのOKIHIRO氏を紹介する画像。AI, イラスト, 地球, スニーカー, OKIHIRO

運営者:OKIHIRO

AIでクリエイティブを加速!AIコンテンツプロンプトエンジニアとして、動画・画像生成から収益化までをプロデュース。YouTube累計収益1300万円突破、月間最高収益148万円達成。AIツール活用、コンテンツ制作、YouTube戦略、収益化ノウハウを共有し、クリエイターの可能性を解き放ちます。

-AI, ツール・サービス, 画像生成AI
-, , , ,

Index