AIによる動画要約
この要約は、AIを使用してYouTube動画の字幕から自動生成されました。動画の内容を理解する一助となれば幸いです。
この動画では、AIツールを活用した話者分離とリップシンク動画の作成方法について解説しています。
なお、この要約文は「YouTube動画字幕からの要約生成指示書セット」を使用して作成しました。
話者分離の重要性とローカルツールセットの活用
この動画では、まず話者分離の技術について解説しています。話者分離とは、1つの音声ファイルに含まれる複数の話者の声を個別に分離することです。
男女の掛け合い音声をNotebookLMで生成した場合、ダウンロード直後は1本の音声ファイルになっています。このままリップシンク動画を作成しようとすると、男女両方のキャラクターが全ての音声に対して口パクをしてしまう問題が発生します。
これを解決するため、話者分離が必要となります。動画では、この話者分離を簡単に行うための「ローカルツールセット」という講座提供のツールを紹介しています。このツールセットには、話者分離以外にもSRT修正やファイル名リネームなど、動画制作に便利な機能が含まれています。
ローカルツールセットによる話者分離の具体的な手順
ローカルツールセットを使用して話者分離を行う手順は以下の通りです。
- 準備:
materials
フォルダに、NotebookLMからダウンロードした音声ファイルをimport_audio.wav
という名前に変更して配置します。拡張子は小文字の.wav
に統一する必要があります。 - 実行:
3_音声から話者を分離.bat
というバッチファイルをダブルクリックすると、スクリプトが実行されます。 - 処理:スクリプトは Hugging Face のトークンを使用し、モデルをロードして音声の話者分離を行います。処理時間はPC環境に依存し、7分弱の音声でGPUがあれば約10分、CPUのみの場合はそれ以上かかる可能性がありますが、自動で最適な方が選択されます。
手動で音声を分離する手間を大幅に削減でき、効率的な作業が可能です。
補足情報
- Hugging Face:AIモデルやデータセットを共有するためのプラットフォームです。多くの研究者や開発者が利用しており、自然言語処理や音声認識などの分野で活用されています。
分離音声の確認とCapCutでの手動修正
話者分離が完了すると、output/speaker_output
フォルダに複数の音声ファイルが生成されます。話者が2人の場合でも、誤認識により3つ以上のファイルが出力されることがあります。これらの音声ファイルは、CapCutなどの動画編集ソフトに読み込んで確認します。
自動分離は完璧ではなく、特に相槌などが別の話者の音声トラックに混じってしまうことがあります。このような場合は、CapCutの編集機能(動画ではXキー
でクリップを分割し、不要部分を削除・移動するショートカットを紹介)を使って手動で修正します。修正作業は、再生速度を上げて確認すると効率的です。
修正後、各話者の音声を個別のWAVファイルとしてエクスポートします。CapCutでは、書き出さない音声トラックをミュートにし、オーディオ形式(WAV推奨)でエクスポートします。
補足情報
- CapCut:バイトダンス社が提供する無料の動画編集アプリです。スマートフォン版とPC版があり、直感的な操作性と豊富な機能で人気があります。
リップシンク動画作成の準備:Wav2Lip Colabノートブック
話者分離した音声と、それぞれの話者に対応するキャラクターの立ち絵動画(グリーンバック推奨)を用意したら、いよいよリップシンク動画の作成に入ります。
動画では、Wav2Lipという技術を利用したGoogle Colaboratoryのノートブックを使用します。このノートブックは、講座内では無料提供、講座外では有料で提供されているものです。
Wav2Lipは、音声に合わせて動画の口の動きを生成するAI技術です。
補足情報
- Google Colaboratory (Colab):Googleが提供する、ブラウザ上でPythonコードを実行できる無料のサービスです。特に機械学習の分野で広く利用されており、GPUアクセスも可能です。
- Wav2Lip:音声波形と顔のランドマークを利用して、リアルなリップシンク動画を生成する深層学習モデルの一つです。
Wav2Lipノートブックの操作手順と設定
Wav2Lipノートブックを使用してリップシンク動画を生成する手順は以下の通りです。
- ファイル準備:Google Driveに専用フォルダ(例:
Wav2Lip_Import
)を作成し、話者分離した音声ファイル(例:male.wav
、female.wav
)と、対応するキャラクターの動画ファイル(例:male.mp4
、female.mp4
)をアップロードします。 - ノートブック設定:
- 入力ファイルパス:ノートブック内の指定箇所に、Google Driveにアップロードした音声ファイル名と動画ファイル名を正確に入力します(拡張子の大文字・小文字にも注意)。
- ランタイム:GPU(
L4
推奨)を選択します。T4
では動作しない可能性や速度低下があるため、L4
が推奨されています。 - その他の設定:リップシンクに関する詳細設定や出力フォルダ指定も可能ですが、最初はデフォルト設定で問題ありません。
- 実行:「すべてのセルを実行」ボタンをクリックすると、セットアップ、モデルダウンロード、Google Driveへの接続認証(ここで一度手動で許可が必要)、ファイルのコピー、そしてリップシンク処理が順次実行されます。
- 処理時間:7分弱の音声の場合、1キャラクターあたり約3〜5分でリップシンク動画が生成されると説明されています。
動画では、標準品質のWav2Lipノートブックと、より高品質だが時間がかかる「Easy Wav2Lip」ノートブックの2種類が紹介されています。
生成動画の確認とCapCutでの最終調整
リップシンク処理が完了すると、指定したGoogle Driveの出力フォルダ(デフォルトでは Wav2Lip_Output
)に生成された動画が保存されます。同じファイル名で複数回出力した場合、自動的に連番が付与されます。
生成されたリップシンク動画をダウンロードし、CapCutに読み込んで最終調整を行います。
- 画質確認:生成された動画は、画面いっぱいに拡大すると多少の粗さ(歯がないなど)が見える場合がありますが、ワイプのように小さく表示する分には十分な品質であるとされています。
- 背景除去(クロマキー):CapCutの動画タブにある「背景削除」から「クロマキー」を選択し、スポイトツールでキャラクター動画のグリーンバック部分を指定して背景を透明にします。
- エッジ調整:クロマキー処理後、キャラクターの輪郭に緑色が残ることがあるため、「エッジをぼかす」や「エッジのクリーンアップ」の数値を調整して自然に見えるようにします(動画ではそれぞれ20〜30程度を推奨)。
- 配置と反転:背景を透過したキャラクター動画を、画面の適切な位置(例:左右下部)に配置します。必要であれば、CapCutの編集機能(クリップを右クリック > 編集 > ミラー反転)でキャラクターの向きを調整し、対話しているように見せます。
リップシンク動画制作のコツと最終的な音声の扱い
より自然なリップシンク動画を作成するためのコツとして、立ち絵動画の品質が重要であると述べられています。
瞬きや体のわずかな揺れなどをAI動画生成で作成した動画を使用すると、より生き生きとした表現が可能です。動画では、コストパフォーマンスの観点からCapCutの動画生成機能が推奨されています。
最終的な動画編集の際の注意点として、リップシンクに使用した分離後の音声や、リップシンク動画に含まれる音声は使用しない方が良いとされています。
音声分離の過程でわずかなエラーや音質劣化が生じている可能性があるため、最終的な動画には、話者分離を行う前のオリジナルのクリーンな音声を使用することが推奨されています。
リップシンク動画は映像素材としてのみ利用し、音声はミュートまたは削除します。
まとめ:AIツールを活用した効率的なリップシンク動画制作フロー
この動画では、NotebookLMで生成した複数話者の音声をローカルツールセットで効率的に話者分離し、分離した音声とキャラクター動画を元にGoogle Colab上のWav2Lipノートブックでリップシンク動画を短時間で作成する一連のフローを解説しました。
さらに、CapCutを使用して、分離音声の手動修正、背景除去(クロマキー)、キャラクター配置といった最終調整を行う具体的な手順も紹介されており、AIツールを駆使した動画編集の効率化テクニックが学べる内容となっています。