【LTX-2】音と映像を同時生成するオープンソースAIモデル「LTX Video」の仕組みとローカル環境構築

Open Source AI Model

音と映像の壁を越える。
LTX-2が描く「同期」の未来。

従来の動画生成AIが抱えていた「音ズレ」や「違和感」を、アーキテクチャレベルで解決する新たなオープンソースモデルが登場しました。音声と映像を不可分な「シーン」として生成するLTX-2の技術的特異点と、ComfyUIによる実装フローを解説します。

ComfyUIDiT ArchitecturePythonLocal LLM

🎥 今回の参考動画はこちら ▼

Table of Contents

1. LTX-2 (LTX Video) とは？ - 音画同時生成の革新性

AIによる動画生成技術は飛躍的な進化を遂げていますが、多くのモデルが抱える共通の課題があります。それは「映像を作ってから音を足す」というプロセスに起因する不自然さです。

今回紹介するLTX-2 (Lightricks LTX Video) は、この常識を覆すオープンソースの基盤モデルです。最大の特徴は、映像と音声を別々に生成するのではなく、単一の拡散プロセス（Diffusion Process）内で同時に生成する点にあります。

なぜ「同時生成」が重要なのか？

従来のパイプラインでは、まず映像（Silent Video）が生成され、その後、別の音声モデルが映像の内容を解析して効果音や音声を付与していました。これでは、リップシンク（口の動き）や環境音のタイミング（ドアが閉まる音など）を完全に一致させることは困難です。

LTX-2は、音声と映像を「同じイベントの異なる側面」として捉え、相互に影響を与え合いながら生成を行います。これにより、以下のような高度な同期が可能になります。

リップシンク: 話し言葉に合わせて口が動く（逆に口の動きに合わせて言葉が決まる）。
物理的因果性: 足音が映像の歩調と完全に一致する。
カメラワークとの連動: カメラの距離感に応じて音の「パースペクティブ」が変化する。

2. アーキテクチャ解説 - DiTと潜在空間の統合

LTX-2の技術的な核心は、DiT (Diffusion Transformer) アーキテクチャをベースにした、音声・映像の統合処理にあります。動画内で解説されている図解を紐解くと、以下の3つのステップで処理が行われていることがわかります。

(1) 圧縮（Encoding）

生の映像データと音声データは、それぞれ専用のVAE (Variational Autoencoder) によって圧縮され、「Latents（潜在表現）」へと変換されます。これにより、計算コストを抑えつつ、モデルが扱いやすい情報量に落とし込みます。

(2) 相互作用（Cross-Attention）

ここがLTX-2の心臓部です。音声と映像は2つの並列したTransformerストリームとして処理されますが、各レイヤーで双方向のクロスアテンション (Bidirectional Cross-Attention) が行われます。

音声ストリームは「今、映像で何が起きているか？」を参照します。
映像ストリームは「今、どんな音が鳴っているか？」を参照します。

この相互参照を毎ステップ行うことで、例えば「麺をすする音（音声）」が生成されると、即座に「口元が麺を吸い込む動作（映像）」へとフィードバックされ、ズレのない生成が実現します。

(3) テキストによるガイド

プロンプト（テキスト）はLLMを通じてリッチな埋め込み表現に変換され、音声・映像の両方のストリームに注入されます。これにより、ユーザーの指示が一貫した「意味」としてシーン全体に反映されます。

3. 実装の準備 - ComfyUIとローカル環境

LTX-2はオープンソースであり、ローカル環境で動作させることが可能です。動画ではComfyUIを使用したワークフローが紹介されています。ここでは、その環境構築のポイントを解説します。

推奨環境

動画生成モデル、特にLTX-2のような高解像度・同時生成モデルは高いVRAMを要求します。

GPU: NVIDIA GeForce RTX 3090 / 4090 (VRAM 24GB以上推奨)
メモリ: 32GB以上
ストレージ: 高速なNVMe SSD (モデルファイルが大きいため)

ComfyUIとカスタムノードの導入

まず、ComfyUIがインストールされている前提で進めます。LTX-2を扱うためのカスタムノードを導入する必要があります。

最も一般的な方法は、ComfyUI-Managerを使用するか、custom_nodes ディレクトリでリポジトリを直接クローンすることです。

cd ComfyUI/custom_nodes
git clone https://github.com/Lightricks/ComfyUI-LTXVideo.git
pip install -r ComfyUI-LTXVideo/requirements.txt

※ 実際のgithubリポジトリURLは公式の最新情報を確認してください。多くの場合、有志による実装や公式のラッパーが公開されています。

モデルのダウンロード

Hugging Face上のLightricks公式リポジトリから、モデルの重みファイル（.safetensors）をダウンロードし、ComfyUIの models/checkpoints フォルダに配置します。

4. ワークフローの構築と生成テスト

動画内では、APIプレイグラウンドでのデモに加え、ComfyUIのノードグラフ（8:19付近）が示されています。基本的な構成は以下のようになります。

(1) Load Checkpoint

ダウンロードしたLTX-2のモデルを読み込みます。ここではVAEやClipモデルも内包されている場合が多いですが、必要に応じて別途ロードします。

(2) プロンプト入力

動画の例にもあった「ナルトがスパゲッティを食べるシーン」のような、具体的かつ詳細なプロンプトを入力します。LTX-2はテキスト理解力が高いため、カメラワーク（Dolly Inなど）や音の質感（Slurping sound）まで指定すると効果的です。

A spiky-haired ninja wearing an orange outfit eating a large bowl of spaghetti. 
Audio details: Slurping noodle sounds, light chewing, clinking of a bowl.

(3) 生成設定 (Sampling)

解像度やフレームレートを設定します。動画では Native 4K 50fps という言及がありましたが、生成時はリソース節約のために低解像度で生成し、アップスケーラーを通すワークフローが一般的です。

Steps: 20〜30程度で十分な品質が出ることが多いです。
CFG Scale: 3.0〜7.0の間で調整し、プロンプトの効き具合を確認します。

(4) 出力確認

生成されたファイルは、映像だけでなく音声トラックを含んでいます。再生して、口の動きと咀嚼音が同期しているかを確認しましょう。従来のモデルとは一線を画す「一体感」が感じられるはずです。

5. まとめ

LTX-2は、単なる動画生成モデルではなく、音声と映像を統合した「シーン生成エンジン」と呼ぶべき存在です。

技術的進歩: DiTベースで音声と映像の潜在空間をクロスアテンションで結合。
実用性: オープンソースであり、ComfyUIを通じてローカルで実験・開発が可能。
未来の可能性: 映画制作やゲーム開発における、完全同期したアセット生成への道を開く。

ぜひ、あなたのローカル環境でもこの「音と映像の融合」を体験してみてください。次世代のクリエイティブは、ここから始まります🚀

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。