Arc-Express レッスン3:【音声と字幕①】TTSによる音声生成とSRT出力

台本制作お疲れ様でした。このレッスンでは、完成した台本を元に、AIのテキスト読み上げ(TTS)機能を使ってナレーション音声を生成します。[MP3]で全パートの音声を一括で生成し、続けて[MP4]でその音声を元にタイミング調整前のSRT字幕ファイルを出力するまでの一連のフローを学びます。


1. 全パートのナレーション音声の一括生成 ([MP3])

この工程はボタンをクリックするだけで、あとはAIが全自動で処理します。

  1. GUIの「メインワークフロー」タブから[MP3] (任意) 全パートの音声を一括生成 (TTS)ボタンをクリックします。
  2. ツールがレッスン2で確定したキャラクター設定(音声モデル)と、各パートのふりがな付き台本(generated_furigana_script.txt)を自動で読み込みます。
  3. 各パートのナレーション音声を順番にAPI経由で生成し、input/part_audios/フォルダにpart_1.wav, part_2.wav... といったファイル名で保存します。
  4. (オプション)AIが生成した音声にノイズが気になる場合、system/config.py内のENABLE_TTS_NOISE_REDUCTIONTrueに設定すると、FFmpegによる自動ノイズリダクションが適用されます。


2. 手動調整用アセットの生成 ([MP4])

次に、生成された音声ファイルを元に、高精度の音声認識(Whisper)をかけて、タイミング情報を含むSRT字幕ファイルの原型を生成します。

  1. GUIの「メインワークフロー」タブから[MP4] 手動調整用アセット生成ボタンをクリックします。
  2. ツールが内部で以下の処理を自動で実行します:
    ① 各パートの音声ファイル(input/part_audios/part_N.wav)の末尾に、フレームレートに合わせた無音を追加して調整。
    ② 調整済み音声をWhisperで解析し、単語レベルのタイムスタンプを持つSRT字幕を生成。
    ③ 生成された各パートのSRTと音声をoutput/(プロジェクト名)/4_for_manual_adjustment/part_N/フォルダに配置。
  3. 処理が完了すると、次の手動調整ステップに必要なすべてのファイルが4_for_manual_adjustmentフォルダ内に整理されます。


これで、AIによる自動生成の工程は完了です。次のレッスンでは、このAIが生成した字幕を元に、動画の品質を決定づける最も重要な「手動調整」の工程に入ります。