【ComfyUI】オープンソース動画生成AI「LTX-2」の使い方を徹底解説！Text-to-VideoとImage-to-Videoを試す

ComfyUI 実践ガイド

オープンソース動画生成AI
「LTX-2」入門

高速な動画生成と音声同期を実現する「LTX-2」をComfyUIで動かす方法を解説。Text-to-VideoからImage-to-Videoまで、誰でも試せる手順を紹介します。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. オープンソース動画生成AI「LTX-2」とは？

LTX-2は、Lightricks社によって開発された、オープンソースで利用可能な動画生成AIモデルです。テキストや画像から高品質な動画を生成できるだけでなく、他のモデルにはないユニークな特徴を備えています。

本記事のゴールは、このLTX-2を使い慣れたComfyUIの環境で動かし、その基本的な使い方をマスターすることです💡

LTX-2の主なメリット

高速な生成速度: 他のオープンソースモデルと比較して、動画の生成が非常に高速です。
音声の同期生成: プロンプトに記述したセリフや効果音を、動画と同期させて生成する能力を持ちます。特にリップシンクの精度は注目に値します。
高解像度対応: 1080p（1920x1080）のような高解像度での動画生成にも対応しており、より精細な表現が可能です。
多様なワークフロー: ComfyUIのテンプレートを使えば、Text-to-Video（テキストから動画）やImage-to-Video（画像から動画）を簡単に試せます。

2. 必要な準備（環境構築）

LTX-2を利用するには、ComfyUIの実行環境が必要です。まだインストールしていない場合は、先に環境構築を済ませておきましょう。

ComfyUIの導入は非常に簡単で、以下の公式GitHubリポジトリからダウンロードし、手順に従うだけです。

ComfyUI 公式GitHub: https://github.com/comfyanonymous/ComfyUI

また、LTX-2のモデル自体は、後述する手順でComfyUI内から直接ダウンロードできるため、事前の準備は不要です。

3. LTX-2の使い方①：Text-to-Video

まずは基本となる、テキストプロンプトから動画を生成する手順を解説します。

ステップ1: ワークフローテンプレートの読み込み

ComfyUIを起動したら、メニューからBrowse Templatesをクリックします。検索バーにLTX-2と入力し、LTX-2 Text to Videoテンプレートを選択して読み込みます。

ステップ2: 必須モデルのダウンロード

ワークフローを読み込むと、「Missing Models」というポップアップが表示されます。これはLTX-2の実行に必要なモデルが不足していることを示しています。リストアップされた全てのモデルのDownloadボタンをクリックして、ダウンロードが完了するのを待ちましょう。

これにはチェックポイント本体やテキストエンコーダーなどが含まれます。

ステップ3: プロンプトとパラメータの設定

モデルの準備が整ったら、Text to Video (LTX 2.0)という大きなノードに動画の内容を記述します。

重要なのは、視覚的な描写だけでなく、音声に関する指示もプロンプトに含められる点です。

プロンプト入力のポイント:

Core Actions: キャラクターの行動や出来事を時系列で記述します。
Visual Details: シーンの見た目に関する詳細（背景、ライティング、カメラワークなど）を記述します。
Audio: シーンに必要なセリフ、効果音、環境音を具体的に記述します。

次に、主要なパラメータを設定します。

frame_count: 生成する動画の総フレーム数です。デフォルトの121は、24fpsの場合約5秒の動画になります。最大で20秒程度（約481フレーム）まで設定可能です。
width / height: 動画の解像度です。1280 x 720 (720p) や 1920 x 1080 (1080p) に設定できます。
ckpt_name: 使用するモデルファイルを選択します。fp8版は軽量で高速ですが、フル版（ファイル名にfp8が付かない方）の方が高品質な結果が期待できます。ただし、フル版はより多くのVRAMを要求します。

設定が完了したら、Queue Promptボタンをクリックして生成を開始します。

4. LTX-2の使い方②：Image-to-Video

次に、既存の画像に動きと音声を加えるImage-to-Videoワークフローを見ていきましょう。手順はText-to-Videoと非常によく似ています。

テンプレートからLTX-2 Image to Videoを読み込み、同様に必須モデルをダウンロードします。

Text-to-Videoとの主な違いは、Load Imageノードが存在する点です。ここでChoose file to uploadをクリックし、動画の元にしたい画像をアップロードします。

プロンプトには、アップロードした画像に対して「どのような動きを加えたいか」「どのような音声を付けたいか」を記述します。これにより、静的な一枚絵がダイナミックな動画へと変換されます。

フレームレートのデフォルトは25fpsに設定されていますが、必要に応じてSubGraphから変更可能です。

5. LTX-2の評価と注意点

実際にLTX-2を数日間試してみて、その長所と短所が見えてきました。

長所 (Pros):

圧倒的な生成速度: 特にfp8モデルを使用した場合の速度は、他のオープンソースモデルを凌駕します。
手軽な音声生成: 追加のツールなしで、プロンプトだけでセリフや効果音を生成できるのは大きな利点です。特にTalking Head（人物が話す動画）の作成には非常に強力です。

短所 (Cons):

品質の不安定さ: 生成される動画の品質は、プロンプトの精度に大きく依存し、時として物理法則やオブジェクトの一貫性が崩れやすい傾向があります。
予測不能な結果: 同じプロンプトでも、生成のたびに結果が大きく変わることがあり、安定して高品質な出力を得るには複数回の試行が必要になる場合があります。

例えば、動画内で紹介されていた比較では、別のモデルであるWan 2.2の方が、プロンプトへの忠実度や全体的なビジュアルの一貫性において、より安定した結果を出していました。

6. まとめ

LTX-2は、その生成速度と音声同期機能において、オープンソース動画生成AIの中で非常にユニークな立ち位置を確立しています。特に、素早くアイデアを映像化したい場合や、リップシンク付きのキャラクター動画を手軽に作りたい場合には、最高の選択肢となるでしょう🚀

一方で、映画のような高いレベルの視覚的一貫性や品質を求める場合は、プロンプトを練り込むか、他のモデルと使い分ける必要があります。

LTX-2はまだ発展途上のモデルですが、そのポテンシャルは計り知れません。ぜひあなたの手で、この新しいツールの可能性を探ってみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。