レッスン2:【台本と音声】AIによる台本自動生成と音声合成

リサーチお疲れ様でした。このステップでは、動画の「設計図」であるレポート記事に「声」という命を吹き込みます。「Co-Creator's Forge」の機能を活用し、AIが滑らかに読み上げられる専用の「ひらがな台本」を自動生成。さらに、Googleの「Generate speech」機能で高品質なナレーション音声を生成し、ツール用の音声ファイルとして保存するフローを学びます。


1. AIによる台本自動生成と音声合成

レッスン1で作成したレポート記事(source_article.txt)を元に、ツールを使って台本を自動生成し、音声ファイルを作成します。

  1. ツールフォルダ内のinput/に、レッスン1で作成したsource_article.txtが配置されていることを確認します。
  2. _run_gui.batを起動し、GUIコントローラーから【0】AIによる台本自動生成ボタンをクリックします。
  3. コンソール画面に対話形式で質問が表示されるので、台本のスタイル(スピーカー人数、話し方、人物像など)を設定します。動画のテーマはsource_article.txtの1行目から自動で読み込まれます。Enterキーで進めると、汎用的な設定が自動で適用されます。
  4. AIによる生成が完了すると、output/0_generated_script/フォルダに「ひらがな台本」「漢字台本」「おすすめ音声モデル案」の3つのファイルが作成されます。
  5. generated_hiragana_script.txtを開き、中身を全てコピーします。
  6. Google AI Studioの「Generate speech」にアクセスします。
  7. 「Raw structure」タブを選択し、コピーしたひらがな台本を貼り付けます。
  8. ツールが同時に生成したsuggested_voices.txtを参考に、最適な音声モデルを選択します。
  9. 「Generate」ボタンをクリックし、生成された音声を.wav形式でダウンロードします。
  10. ダウンロードした音声ファイルの名前を「audio.wav」に変更し、「Co-Creator's Forge」の「input」フォルダに配置してください。


これで動画の「設計図」と「声」が揃いました。次のレッスンでは、この音声ファイルと台本から、タイミング情報が完璧な字幕ファイルを全自動で生成する方法を学びます。