焚き火を囲んで笑い合うゴブリンとエイリアンの3Dキャラクター。LTX-2による音声動画生成のイメージ。

LTX-2

【LTX-2】音声×動画生成AIが完全オープンソース化!ローカル環境での動かし方を徹底解説

広告

NEW RELEASE
LTX-2: 音声&動画生成の
「完全オープン」時代へ
Weights、学習コード、ツールセットまで全て公開。デモではなく、あなたのローカル環境で動く「本物の基盤モデル」の実力を試しましょう。
🎥Audio & Video
⚙️Training Code
💻Run Locally

🎥 今回の参考動画はこちら



1. LTX-2とは? - 完全オープンの音声・動画生成モデル

AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈に激震が走るニュースをお届けします。「LTX-2」が公開されました🚀

これまでの動画生成モデルの多くは、推論(生成)のみが可能であったり、Web上のデモ環境でしか触れないものが一般的でした。しかし、今回発表されたLTX-2は違います。

  • Audio & Video: 映像だけでなく、音声も同時に生成可能なマルチモーダルモデル。
  • Weights Available: 学習済みの重みデータが完全に公開。
  • Training Code: どのように学習させたかのコードまで公開(これが非常に重要です)。
  • Run it locally: 自分のPC(ローカル環境)で動作させることを前提に設計されています。

動画にある「Not a demo, A foundation(デモではなく、基盤である)」という言葉が示す通り、これは私たちがアプリケーションを構築するための土台となる技術です。

2. 必要な準備(環境構築)

それでは、実際にローカル環境でLTX-2を動かす準備をしましょう。映像処理と音声処理を同時に行うため、比較的高スペックなGPU環境が推奨されます。

推奨スペック

  • OS: Linux (Ubuntu 22.04推奨) または Windows (WSL2)
  • Python: 3.10 以上
  • GPU: NVIDIA GPU (VRAM 16GB以上推奨、24GBあると安心です)
  • CUDA: 11.8 または 12.1

ライブラリのインストール

まずは作業用のディレクトリを作成し、GitHubからリポジトリをクローンします(※以下は一般的なオープンソースモデルの導入フローをベースにした構成例です)。

# リポジトリのクローン
git clone https://github.com/Lightricks/LTX-2
cd LTX-2

# 仮想環境の作成と有効化
python -m venv venv
source venv/bin/activate  # Windowsの場合は venv\Scripts\activate

# 依存ライブラリのインストール
pip install -r requirements.txt

特に重要なのは、torchdiffusers、そして音声処理用のtorchaudioなどのバージョン整合性です。公式のrequirements.txtに従うのが最も確実です。

3. 実装・使い方の解説

環境が整ったら、Pythonスクリプトで推論(Inference)を実行してみましょう。LTX-2の最大の特徴である「動画と音声の同時生成」を行うコード例を紹介します。

以下のコードは、テキストプロンプトから5秒間の音声付き動画を生成するシンプルな例です。

import torch
from ltx2.pipeline import LTX2Pipeline

# 1. モデルのロード (fp16でメモリ節約)
pipe = LTX2Pipeline.from_pretrained(
    "Lightricks/LTX-2",
    torch_dtype=torch.float16
)
pipe.to("cuda")

# 2. プロンプトの定義
prompt = "A cinematic shot of a goblin and a cute alien sitting by a campfire in a magical forest, crackling fire sound, ambient nature noise"
negative_prompt = "low quality, distorted, watermark, blurry"

# 3. 生成の実行
# video_frames: 映像データ, audio_waveform: 音声データ
output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=50,
    duration_seconds=5,
    guidance_scale=7.5
)

# 4. 保存
from ltx2.utils import save_video_with_audio
save_video_with_audio(
    output.frames,
    output.audio,
    fps=24,
    output_path="campfire_scene.mp4"
)

コードの解説:

  • LTX2Pipeline: モデルの中核となるクラスです。Hugging FaceのDiffusersライブラリに近い操作感で扱えるよう設計されています💡
  • prompt: 映像の描写だけでなく、「crackling fire sound(パチパチという焚き火の音)」のように音の指示も含めることで、モデルが適切な音声を生成します。
  • save_video_with_audio: 生成された映像フレームと音声波形を合成し、一つのMP4ファイルとして書き出します。

4. 応用・注意点

ToolingとFine-Tuning

動画内で「Tooling」や「Training Code」と言及されていた通り、LTX-2は独自のデータセットで追加学習(ファインチューニング)を行うためのスクリプトも同梱されています。

例えば、自社のキャラクターや特定のアートスタイルを学習させたい場合、train.pyのようなスクリプトを使用してLoRA(Low-Rank Adaptation)を作成することが可能です。これにより、生成される映像の一貫性を大幅に向上させることができます。

リソース管理

音声と動画を扱うため、VRAMの使用量は大きくなりがちです。エラーが出る場合は、enable_model_cpu_offload() などの機能を使い、処理していないモジュールをCPUに逃がす工夫が必要になるでしょう。

5. まとめ

LTX-2は、単なる「遊べるAI」を超え、開発者が自由に改変・拡張できる「基盤」として公開されました。

  • 音声と動画を統合したマルチモーダル生成
  • ローカル環境で完結するプライバシーと自由度
  • 学習コード公開による高いカスタマイズ性

これらがすべてオープンソースで提供されることの意義は計り知れません。ぜひ、あなたのローカル環境で「Audio & Video」の未来を体感してみてください。次回の記事では、カスタムデータを使ったファインチューニングに挑戦してみたいと思います。それでは!👋


【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-LTX-2
-, , , ,