20秒動画生成の最前線
Soraに匹敵するオープンソースモデル「LTX-2」と、最新言語モデル「Gemma 3」を組み合わせた強力なワークフローが登場。導入の壁となるインストール手順の罠と回避策を技術的に解説します。
🎥 今回の参考動画はこちら ▼
1. LTX-2 とは? - 概要と進化した点
こんにちは、AIアーキテクトのOKIHIROです。2026年1月現在、オープンソースの動画生成界隈で最も注目を集めているのが「LTX-2」です。
これまでComfyUI環境での動画生成といえば数秒の短いループが主流でしたが、LTX-2は20秒という長尺の動画生成を可能にしました。さらに特筆すべきは、音声生成も同時に行える点です。これはOpenAIのSoraなどのクローズドなモデルに対抗する、オープンソース陣営の大きな一手と言えます。
今回は、AIクリエイターのOstris氏やSmall0氏によって最適化されたワークフローをベースに、最新の言語モデルGemma 3をテキストエンコーダーとして組み込む手法を解説します。
2. 必要な準備(環境構築・インストール)
LTX-2を動かすにはComfyUIが必要です。また、今回のワークフローではテキストエンコーダーとしてGemma 3を使用するため、導入に少しコツがいります。
推奨スペック
- GPU: NVIDIA RTX 4090 / 5090 (VRAM 24GB以上推奨)
- RAM: 64GB以上
- ComfyUI: 最新版にアップデート済みであること
Gemma 3 導入の「罠」と解決策
動画内でも語られていますが、Gemma 3の導入は単純なモデルファイルの配置だけでは動作しないケースがあります。多くのユーザーがここで躓きます。
重要なポイント:
Hugging FaceやGitHubからモデルをダウンロードする際、単体の.safetensorsファイルだけでなく、リポジトリ内の全ファイル(設定ファイルやトークナイザー関連のフォルダ構造含む)をそのままコピーする必要があります。
具体的には、ComfyUIのmodels/LLMや指定されたエンコーダーフォルダ内に、フォルダごと配置してください。一部のファイルが欠けていると、ロード時にエラーが発生します。
3. 実装・使い方の解説
ここでは、配布されているLTX-2用ワークフローの主要なノード構成と設定値について解説します。
基本設定(Checkpoint & VAE)
まずはLoad CheckpointノードでLTX-2のモデルを読み込みます。このモデルは動画と音声の両方を生成する能力を持っています。
- Checkpoint: LTX-2 (またはLTX-Video v2相当のもの)
- Text Encoder: Gemma 3 (フォルダパスを正しく指定)
- VAE: LTX-2専用のVAE
プロンプトの記述ルール
LTX-2で高品質な20秒動画を生成するためには、プロンプトの構造化が不可欠です。漫然と単語を並べるのではなく、以下の順序で記述してください。
- Subject (被写体): 何が映っているか明確に記述。
- Action (動作): どのような動きをしているか。
- Setting (環境): 場所、背景、時間帯。
- Camera & Style (演出): カメラワーク、照明、画風。
例: A cinematic shot of a red sailboat sailing on a calm ocean at sunset, camera panning slowly to the right, golden hour lighting, 4k resolution.
生成時間について
私の環境(RTX 5090想定)や動画内のRTX 5090相当の環境では、20秒の動画生成に約5〜7分かかります。決して爆速ではありませんが、生成されるクオリティと尺を考えれば待つ価値は十分にあるでしょう。
4. 応用・注意点
生成ガチャの質
LTX-2は強力ですが、百発百中ではありません。動画内のデモでもあったように、人物の描写や物理法則が破綻することもあります(通称「ハルシネーション」)。
一発で完璧なものを求めず、プロンプトを微調整しながら複数回試行する前提でいましょう。特に「人間」を含む動画は難易度が高く、風景やオブジェクト(例:ヨットや車)の方が安定する傾向にあります。
音声の品質
生成される音声については、現時点では環境音やBGM的なものが主で、セリフや複雑な音響効果はまだ発展途上です。「少し不気味(haunting)」と表現されることもあるため、用途によっては別途音声生成AIを併用するのが賢明です。
5. まとめ
LTX-2とGemma 3の組み合わせは、ComfyUIでの動画生成をネクストレベルに引き上げました。20秒という尺は、ショート動画や広告素材としてそのまま使える長さです。
今回の要点:
- LTX-2は20秒・音声付き動画が作れる。
- Gemma 3導入時は「全ファイルコピー」が必須。
- プロンプトは「被写体→動作→環境→演出」の順で構造化する。
ぜひ、このワークフローを取り入れて、あなたのローカル環境で映画のようなワンシーンを作り出してみてください。
この記事の自動化に使われた技術と思考法は、
すべて以下のアカデミーでインストールできます。