「完全オープン」時代へ
🎥 今回の参考動画はこちら ▼
1. LTX-2とは? - 完全オープンの音声・動画生成モデル
AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈に激震が走るニュースをお届けします。「LTX-2」が公開されました🚀
これまでの動画生成モデルの多くは、推論(生成)のみが可能であったり、Web上のデモ環境でしか触れないものが一般的でした。しかし、今回発表されたLTX-2は違います。
- Audio & Video: 映像だけでなく、音声も同時に生成可能なマルチモーダルモデル。
- Weights Available: 学習済みの重みデータが完全に公開。
- Training Code: どのように学習させたかのコードまで公開(これが非常に重要です)。
- Run it locally: 自分のPC(ローカル環境)で動作させることを前提に設計されています。
動画にある「Not a demo, A foundation(デモではなく、基盤である)」という言葉が示す通り、これは私たちがアプリケーションを構築するための土台となる技術です。
2. 必要な準備(環境構築)
それでは、実際にローカル環境でLTX-2を動かす準備をしましょう。映像処理と音声処理を同時に行うため、比較的高スペックなGPU環境が推奨されます。
推奨スペック
- OS: Linux (Ubuntu 22.04推奨) または Windows (WSL2)
- Python: 3.10 以上
- GPU: NVIDIA GPU (VRAM 16GB以上推奨、24GBあると安心です)
- CUDA: 11.8 または 12.1
ライブラリのインストール
まずは作業用のディレクトリを作成し、GitHubからリポジトリをクローンします(※以下は一般的なオープンソースモデルの導入フローをベースにした構成例です)。
# リポジトリのクローン
git clone https://github.com/Lightricks/LTX-2
cd LTX-2
# 仮想環境の作成と有効化
python -m venv venv
source venv/bin/activate # Windowsの場合は venv\Scripts\activate
# 依存ライブラリのインストール
pip install -r requirements.txt特に重要なのは、torch、diffusers、そして音声処理用のtorchaudioなどのバージョン整合性です。公式のrequirements.txtに従うのが最も確実です。
3. 実装・使い方の解説
環境が整ったら、Pythonスクリプトで推論(Inference)を実行してみましょう。LTX-2の最大の特徴である「動画と音声の同時生成」を行うコード例を紹介します。
以下のコードは、テキストプロンプトから5秒間の音声付き動画を生成するシンプルな例です。
import torch
from ltx2.pipeline import LTX2Pipeline
# 1. モデルのロード (fp16でメモリ節約)
pipe = LTX2Pipeline.from_pretrained(
"Lightricks/LTX-2",
torch_dtype=torch.float16
)
pipe.to("cuda")
# 2. プロンプトの定義
prompt = "A cinematic shot of a goblin and a cute alien sitting by a campfire in a magical forest, crackling fire sound, ambient nature noise"
negative_prompt = "low quality, distorted, watermark, blurry"
# 3. 生成の実行
# video_frames: 映像データ, audio_waveform: 音声データ
output = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
num_inference_steps=50,
duration_seconds=5,
guidance_scale=7.5
)
# 4. 保存
from ltx2.utils import save_video_with_audio
save_video_with_audio(
output.frames,
output.audio,
fps=24,
output_path="campfire_scene.mp4"
)コードの解説:
LTX2Pipeline: モデルの中核となるクラスです。Hugging FaceのDiffusersライブラリに近い操作感で扱えるよう設計されています💡prompt: 映像の描写だけでなく、「crackling fire sound(パチパチという焚き火の音)」のように音の指示も含めることで、モデルが適切な音声を生成します。save_video_with_audio: 生成された映像フレームと音声波形を合成し、一つのMP4ファイルとして書き出します。
4. 応用・注意点
ToolingとFine-Tuning
動画内で「Tooling」や「Training Code」と言及されていた通り、LTX-2は独自のデータセットで追加学習(ファインチューニング)を行うためのスクリプトも同梱されています。
例えば、自社のキャラクターや特定のアートスタイルを学習させたい場合、train.pyのようなスクリプトを使用してLoRA(Low-Rank Adaptation)を作成することが可能です。これにより、生成される映像の一貫性を大幅に向上させることができます。
リソース管理
音声と動画を扱うため、VRAMの使用量は大きくなりがちです。エラーが出る場合は、enable_model_cpu_offload() などの機能を使い、処理していないモジュールをCPUに逃がす工夫が必要になるでしょう。
5. まとめ
LTX-2は、単なる「遊べるAI」を超え、開発者が自由に改変・拡張できる「基盤」として公開されました。
- 音声と動画を統合したマルチモーダル生成
- ローカル環境で完結するプライバシーと自由度
- 学習コード公開による高いカスタマイズ性
これらがすべてオープンソースで提供されることの意義は計り知れません。ぜひ、あなたのローカル環境で「Audio & Video」の未来を体感してみてください。次回の記事では、カスタムデータを使ったファインチューニングに挑戦してみたいと思います。それでは!👋
この記事の自動化に使われた技術と思考法は、
すべて以下のアカデミーでインストールできます。