Arc-Express レッスン3：【音声と字幕①】TTSによる音声生成とSRT出力

台本制作お疲れ様でした。このレッスンでは、完成した台本を元に、AIのテキスト読み上げ（TTS）機能を使ってナレーション音声を生成します。[MP3]で全パートの音声を一括で生成し、続けて[MP4]でその音声を元にタイミング調整前のSRT字幕ファイルを出力するまでの一連のフローを学びます。

Table of Contents

1. 全パートのナレーション音声の一括生成 ([MP3])

この工程はボタンをクリックするだけで、あとはAIが全自動で処理します。

GUIの「メインワークフロー」タブから[MP3] (任意) 全パートの音声を一括生成 (TTS)ボタンをクリックします。

ツールがレッスン2で確定したキャラクター設定（音声モデル）と、各パートのふりがな付き台本（generated_furigana_script.txt）を自動で読み込みます。

各パートのナレーション音声を順番にAPI経由で生成し、input/part_audios/フォルダにpart_1.wav, part_2.wav... といったファイル名で保存します。

（オプション）AIが生成した音声にノイズが気になる場合、system/config.py内のENABLE_TTS_NOISE_REDUCTIONをTrueに設定すると、FFmpegによる自動ノイズリダクションが適用されます。

2. 手動調整用アセットの生成 ([MP4])

次に、生成された音声ファイルを元に、高精度の音声認識（Whisper）をかけて、タイミング情報を含むSRT字幕ファイルの原型を生成します。

GUIの「メインワークフロー」タブから[MP4] 手動調整用アセット生成ボタンをクリックします。

ツールが内部で以下の処理を自動で実行します：
① 各パートの音声ファイル（input/part_audios/part_N.wav）の末尾に、フレームレートに合わせた無音を追加して調整。
② 調整済み音声をWhisperで解析し、単語レベルのタイムスタンプを持つSRT字幕を生成。
③ 生成された各パートのSRTと音声をoutput/(プロジェクト名)/4_for_manual_adjustment/part_N/フォルダに配置。

処理が完了すると、次の手動調整ステップに必要なすべてのファイルが4_for_manual_adjustmentフォルダ内に整理されます。

これで、AIによる自動生成の工程は完了です。次のレッスンでは、このAIが生成した字幕を元に、動画の品質を決定づける最も重要な「手動調整」の工程に入ります。

レッスン4へ進む

講座ポータルへ戻る

Arc-Express レッスン3：【音声と字幕①】TTSによる音声生成とSRT出力

1. 全パートのナレーション音声の一括生成 ([MP3])

2. 手動調整用アセットの生成 ([MP4])

無料チャットマガジン