Arc-Express レッスン3:【音声と字幕①】TTSによる音声生成とSRT出力
台本制作お疲れ様でした。このレッスンでは、完成した台本を元に、AIのテキスト読み上げ(TTS)機能を使ってナレーション音声を生成します。[MP3]で全パートの音声を一括で生成し、続けて[MP4]でその音声を元にタイミング調整前のSRT字幕ファイルを出力するまでの一連のフローを学びます。
1. 全パートのナレーション音声の一括生成 ([MP3])
この工程はボタンをクリックするだけで、あとはAIが全自動で処理します。
- GUIの「メインワークフロー」タブから
[MP3] (任意) 全パートの音声を一括生成 (TTS)ボタンをクリックします。 - ツールがレッスン2で確定したキャラクター設定(音声モデル)と、各パートのふりがな付き台本(
generated_furigana_script.txt)を自動で読み込みます。 - 各パートのナレーション音声を順番にAPI経由で生成し、
input/part_audios/フォルダにpart_1.wav,part_2.wav... といったファイル名で保存します。 - (オプション)AIが生成した音声にノイズが気になる場合、
system/config.py内のENABLE_TTS_NOISE_REDUCTIONをTrueに設定すると、FFmpegによる自動ノイズリダクションが適用されます。
2. 手動調整用アセットの生成 ([MP4])
次に、生成された音声ファイルを元に、高精度の音声認識(Whisper)をかけて、タイミング情報を含むSRT字幕ファイルの原型を生成します。
- GUIの「メインワークフロー」タブから
[MP4] 手動調整用アセット生成ボタンをクリックします。 - ツールが内部で以下の処理を自動で実行します:
① 各パートの音声ファイル(input/part_audios/part_N.wav)の末尾に、フレームレートに合わせた無音を追加して調整。
② 調整済み音声をWhisperで解析し、単語レベルのタイムスタンプを持つSRT字幕を生成。
③ 生成された各パートのSRTと音声をoutput/(プロジェクト名)/4_for_manual_adjustment/part_N/フォルダに配置。 - 処理が完了すると、次の手動調整ステップに必要なすべてのファイルが
4_for_manual_adjustmentフォルダ内に整理されます。
これで、AIによる自動生成の工程は完了です。次のレッスンでは、このAIが生成した字幕を元に、動画の品質を決定づける最も重要な「手動調整」の工程に入ります。