【LTX-2】音声×動画生成AIが完全オープンソース化！ローカル環境での動かし方を徹底解説

NEW RELEASE

LTX-2: 音声＆動画生成の
「完全オープン」時代へ

Weights、学習コード、ツールセットまで全て公開。デモではなく、あなたのローカル環境で動く「本物の基盤モデル」の実力を試しましょう。

🎥Audio & Video

⚙️Training Code

💻Run Locally

🎥 今回の参考動画はこちら ▼

Table of Contents

1. LTX-2とは？ - 完全オープンの音声・動画生成モデル

AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈に激震が走るニュースをお届けします。「LTX-2」が公開されました🚀

これまでの動画生成モデルの多くは、推論（生成）のみが可能であったり、Web上のデモ環境でしか触れないものが一般的でした。しかし、今回発表されたLTX-2は違います。

Audio & Video: 映像だけでなく、音声も同時に生成可能なマルチモーダルモデル。
Weights Available: 学習済みの重みデータが完全に公開。
Training Code: どのように学習させたかのコードまで公開（これが非常に重要です）。
Run it locally: 自分のPC（ローカル環境）で動作させることを前提に設計されています。

動画にある「Not a demo, A foundation（デモではなく、基盤である）」という言葉が示す通り、これは私たちがアプリケーションを構築するための土台となる技術です。

2. 必要な準備（環境構築）

それでは、実際にローカル環境でLTX-2を動かす準備をしましょう。映像処理と音声処理を同時に行うため、比較的高スペックなGPU環境が推奨されます。

推奨スペック

OS: Linux (Ubuntu 22.04推奨) または Windows (WSL2)
Python: 3.10 以上
GPU: NVIDIA GPU (VRAM 16GB以上推奨、24GBあると安心です)
CUDA: 11.8 または 12.1

ライブラリのインストール

まずは作業用のディレクトリを作成し、GitHubからリポジトリをクローンします（※以下は一般的なオープンソースモデルの導入フローをベースにした構成例です）。

# リポジトリのクローン
git clone https://github.com/Lightricks/LTX-2
cd LTX-2

# 仮想環境の作成と有効化
python -m venv venv
source venv/bin/activate  # Windowsの場合は venv\Scripts\activate

# 依存ライブラリのインストール
pip install -r requirements.txt

特に重要なのは、torch、diffusers、そして音声処理用のtorchaudioなどのバージョン整合性です。公式のrequirements.txtに従うのが最も確実です。

3. 実装・使い方の解説

環境が整ったら、Pythonスクリプトで推論（Inference）を実行してみましょう。LTX-2の最大の特徴である「動画と音声の同時生成」を行うコード例を紹介します。

以下のコードは、テキストプロンプトから5秒間の音声付き動画を生成するシンプルな例です。

import torch
from ltx2.pipeline import LTX2Pipeline

# 1. モデルのロード (fp16でメモリ節約)
pipe = LTX2Pipeline.from_pretrained(
    "Lightricks/LTX-2",
    torch_dtype=torch.float16
)
pipe.to("cuda")

# 2. プロンプトの定義
prompt = "A cinematic shot of a goblin and a cute alien sitting by a campfire in a magical forest, crackling fire sound, ambient nature noise"
negative_prompt = "low quality, distorted, watermark, blurry"

# 3. 生成の実行
# video_frames: 映像データ, audio_waveform: 音声データ
output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=50,
    duration_seconds=5,
    guidance_scale=7.5
)

# 4. 保存
from ltx2.utils import save_video_with_audio
save_video_with_audio(
    output.frames,
    output.audio,
    fps=24,
    output_path="campfire_scene.mp4"
)

コードの解説:

LTX2Pipeline: モデルの中核となるクラスです。Hugging FaceのDiffusersライブラリに近い操作感で扱えるよう設計されています💡
prompt: 映像の描写だけでなく、「crackling fire sound（パチパチという焚き火の音）」のように音の指示も含めることで、モデルが適切な音声を生成します。
save_video_with_audio: 生成された映像フレームと音声波形を合成し、一つのMP4ファイルとして書き出します。

4. 応用・注意点

ToolingとFine-Tuning

動画内で「Tooling」や「Training Code」と言及されていた通り、LTX-2は独自のデータセットで追加学習（ファインチューニング）を行うためのスクリプトも同梱されています。

例えば、自社のキャラクターや特定のアートスタイルを学習させたい場合、train.pyのようなスクリプトを使用してLoRA（Low-Rank Adaptation）を作成することが可能です。これにより、生成される映像の一貫性を大幅に向上させることができます。

リソース管理

音声と動画を扱うため、VRAMの使用量は大きくなりがちです。エラーが出る場合は、enable_model_cpu_offload() などの機能を使い、処理していないモジュールをCPUに逃がす工夫が必要になるでしょう。

5. まとめ

LTX-2は、単なる「遊べるAI」を超え、開発者が自由に改変・拡張できる「基盤」として公開されました。

音声と動画を統合したマルチモーダル生成
ローカル環境で完結するプライバシーと自由度
学習コード公開による高いカスタマイズ性

これらがすべてオープンソースで提供されることの意義は計り知れません。ぜひ、あなたのローカル環境で「Audio & Video」の未来を体感してみてください。次回の記事では、カスタムデータを使ったファインチューニングに挑戦してみたいと思います。それでは！👋

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。

【LTX-2】音声×動画生成AIが完全オープンソース化！ローカル環境での動かし方を徹底解説

1. LTX-2とは？ - 完全オープンの音声・動画生成モデル

2. 必要な準備（環境構築）

推奨スペック

ライブラリのインストール

3. 実装・使い方の解説

4. 応用・注意点

ToolingとFine-Tuning

リソース管理

5. まとめ

【売る力】AI Web Architect

【作る力】AI-Driven 開発

無料チャットマガジン

【売る力】
AI Web Architect

【作る力】
AI-Driven 開発