【LTX-2】低VRAM対応！音声付き動画生成AIをComfyUIで動かす完全ガイド

OPEN SOURCE & LOW VRAM

LTX-2徹底解説
ComfyUIで始める次世代動画生成

音声同期・4K解像度・ControlNet対応。最新オープンソースモデル「LTX-2」の実力を引き出す環境構築から、低スペックGPUでの動作テクニックまで。AIアーキテクトがその全貌を解き明かします。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. LTX-2とは？ - オープンソース動画生成の革命

AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で大きな話題となっている「LTX-2」について解説します。

Lightricksが開発し、オープンソースとして公開されたこのモデルは、従来のモデル（Wan 2.1など）と比較しても圧倒的な生成速度と品質を誇ります。

主な特徴とメリット

ネイティブオーディオ生成: 動画の内容に同期した音声（セリフや効果音）を同時に生成可能です。
最大4K解像度 & 長時間生成: 品質を維持したまま、10秒〜20秒以上の動画を生成できます。
低VRAM動作: 工夫次第で2GB〜4GBといったコンシューマー向けGPUでも動作可能です。
ControlNet & LoRA対応: 構図やポーズの制御、特定の画風への微調整が容易です。

特に注目すべきは、「Distilled（蒸留）」モデルの存在です。これにより、少ないステップ数で高品質な動画を高速に生成できるようになりました。

2. 必要な準備（ComfyUI環境構築）

LTX-2をローカル環境で動かすには、ComfyUIを使用するのが最も効率的です。以下の手順で環境を整えましょう。

1. ComfyUI-LTXVideoノードのインストール

ComfyUIを起動し、ManagerからComfyUI-LTXVideoを検索してインストールします。これがLTX-2を動かすための核心となるカスタムノード群です。

2. モデルファイルの配置

Hugging Faceのリポジトリから必要なモデルをダウンロードし、ComfyUIの所定のフォルダに配置します。

必須モデル (checkpoint):
ComfyUI/models/checkpoints/ に配置します。
低VRAM環境の方は、ファイルサイズの小さいFP8量子化版やDistilled版（例: ltx-2-19b-distilled-fp8.safetensors）を推奨します。

テキストエンコーダー (Text Encoder):
LTX-2はGemma 3を使用します。公式の重いモデルではなく、Unslothによる4bit量子化版（約8GB）を使用することでVRAMを劇的に節約できます。

ComfyUI/models/text_encoders/ フォルダ内で以下のコマンドを実行し、モデルを取得します（Gitが必要です）。

git clone https://huggingface.co/unsloth/gemma-3-12b-it-bnb-4bit

3. 実装・使い方の解説

環境が整ったら、実際にワークフローを構築して動画を生成してみましょう。

Text-to-Video（テキストから動画生成）

最も基本的な使い方は、テキストプロンプトから動画と音声を生成する方法です。Distilledモデルを使用する場合、以下の設定がポイントになります。

Steps (サンプラー): Distilledモデルなら4〜8ステップ程度で十分な品質が出ます。これにより生成時間が大幅に短縮されます。
Prompt: 動画の内容だけでなく、「女性が悲しそうに『AIは眠らない』と言う」のように、話させたいセリフを含めると、音声も生成されます。

低VRAM環境での動作テクニック

VRAMが少ない（例: 4GB以下）場合、ComfyUIの起動用バッチファイル（run_nvidia_gpu.batなど）を編集し、以下の引数を追加することで動作する可能性があります。

--reserve-vram 4
（4GBのVRAMを確保し、残りをシステムRAMにオフロードする設定）

さらにVRAMが少ない場合は、--no-vram を指定することで、計算の大部分をメインメモリ（RAM）で行うよう強制できます。ただし、PC全体のRAM容量（32GB以上推奨）が必要です。

4. 応用・ControlNetとアップスケーリング

LTX-2の真価は、その制御性の高さにあります。

ControlNetによる構図制御

ControlNetを使用することで、参照動画の「ポーズ（Pose）」や「エッジ（Canny）」、「深度（Depth）」を抽出し、生成する動画の動きを制御できます。

例えば、自分が歩いている動画をPoseとして入力し、プロンプトで「スーツを着た男性が京都の夜道を歩く」と指定すれば、自分の動きそのままにキャラクターや背景を差し替えることができます。

アップスケーリングの活用

LTX-2は内部的に2段階のプロセス（低解像度生成 → アップスケール）を経て高解像度動画を生成します。LTX-2 Spatial Upscaler モデルをロードすることで、720pやそれ以上の解像度でも破綻の少ない映像を出力可能です。

5. まとめ

LTX-2は、オープンソース動画生成AIの新たなスタンダードとなるポテンシャルを秘めています。特に、これまでハイスペックGPUが必要だった高品質な動画生成が、工夫次第で身近な環境でも実行できる点は革命的です。

ComfyUIを使えば、これらの機能をブロックのように組み合わせて、独自の映像表現を追求できます。ぜひ、あなたのクリエイティブワークに取り入れてみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。