【ComfyUI】Wan 2.2 × SVIで無限に続く長尺動画を作る方法！Stable Video Infinity徹底解説

NEW UPDATE

Wan 2.2 × SVIで実現する
「無限」の動画生成ワークフロー

数秒で崩れるAI動画はもう終わりです。
エラー修正機能を備えた「Stable Video Infinity」と、最新の「Wan 2.2」モデルを組み合わせ、破綻のない高品質な長尺動画を生成する手法を、OKIHIROが徹底解説します。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Stable Video Infinity (SVI) と Wan 2.2 とは？

AI動画生成において最大の課題は「時間の経過とともに映像が崩壊する」ことでした。しかし、今回紹介するStable Video Infinity (SVI) フレームワークと、最新モデル Wan 2.2 (14B) の組み合わせは、その常識を覆します。

SVIは「Error Recycling（エラー再利用）」や「Text Prompt Streaming」といった技術を駆使し、前のフレームの情報を正しく継承しながら、シーン転換や長時間の生成を行っても画質や一貫性を維持できるシステムです。

特に最新のバージョン2では、Wan 2.2モデルに対応し、Wan 2.1時代と比較して「炎の揺らめき」や「人物の振り返り動作」の品質が劇的に向上しています。従来のモデルで見られたぼやけや崩れが解消され、映画レベルのクリアな映像生成が可能になりました。

2. 必要な準備（モデル・カスタムノード）

このワークフローを実行するには、以下の環境とモデルが必要です。特にVRAM容量には注意してください。

推奨スペック

VRAM 16GB以上（24GB推奨）。Wan 2.2 14Bモデルを使用するため、VRAMが少ない場合はFP8版の使用を強く推奨します。

必須カスタムノード

ComfyUI Managerで以下をインストールしてください。

ComfyUI-WanVideoWrapper (kijai氏開発): SVIを実行するための核心となるノード群です。
ComfyUI-KJNodes: 画像リサイズやバッチ処理などの補助に使用します。

ダウンロードするモデル

Hugging Face上のリポジトリ（例: Wan-AI やSVI関連のページ）から以下を入手し、所定のフォルダに配置します。

Base Model (Wan 2.2 I2V 14B): ComfyUI/models/diffusion_models に配置。
SVI LoRA Model (v2.0): ファイル名に SVI_Wan2.2_I2V...safetensors を含むもの。ComfyUI/models/loras に配置。
Noise Models (Low/High): SVI特有のノイズ制御モデル。これもLoRAと同じフォルダ、または指定されたフォルダへ。

3. ComfyUIワークフロー徹底解説

動画で紹介されている「ミートボール・スパゲッティ（複雑に絡み合ったノード）」状態を回避し、整理されたワークフローを構築する手順を解説します。

Step 1: 画像とモデルのロード

まず Load Image ノードで開始フレームとなる画像を読み込みます。次に WanVideoWrapper 関連のローダーを使用して、Wan 2.2のベースモデルと、SVI専用LoRAを読み込みます。

ここで重要なのが、SVI LoRAの適用です。これがないと長尺生成時に映像が破綻します。必ずSVI用のLoRA（v2.0推奨）を接続してください。

Step 2: SVIの核心「Temporal Mask」と「Start-to-End」

SVIフレームワークの最大の特徴は、Temporal Mask（時間的マスク）の使用です。これは最初のフレームのスタイルや構図をロックし、後続のフレーム生成時に参照させる役割を持ちます。

ワークフローでは、InvertMask ノードで作成した全白のマスクを、各生成セグメントに渡します。これにより、AIは「どの部分を一貫させるべきか」を理解し続け、キャラクターが動いても顔や服装が崩れにくくなります。

Step 3: ループ構造による無限生成 (Prompt Streaming)

動画の後半で解説されているのが、テキストボックスを使った「トラベルプロンプト（Travel Prompt）」の手法です。

手動でノードを大量に繋ぐのではなく、スクリプト的にテキストプロンプトを記述し、それをループ処理させることで、以下のような制御が可能になります。

0〜5秒: 「玉座に座る女王」
5〜10秒: 「立ち上がり、魔法を唱える」
10〜15秒: 「背景が宇宙空間に変わる」

この手法を使うことで、プロンプトの指示に従ってシーンが次々と変化する、まさに「無限」の動画を作り出すことができます。

4. 重要パラメータ調整のコツ

高品質な動画を出力するための、OKIHIRO推奨設定です。

FPSとフレーム数

標準的な設定は FPS: 16、フレーム数は 81フレーム（約5秒分）です。これを1単位として繋げていきます。

Flow Constants (CFGのようなもの)

Flow: 8.0 〜 10.0 が最適です。動きが激しいアクションシーンの場合は 10.0 に上げると、プロンプトへの追従性が高まりますが、上げすぎると画質が硬くなる場合があるため調整が必要です。

Steps (サンプリング回数)

Wan 2.2は比較的高速ですが、品質確保のためには 20〜30ステップ 程度を推奨します。また、SVIではHigh NoiseとLow Noiseのステップ配分（Split Steps）が画質に影響するため、デフォルト値を基準に微調整してください。

5. まとめ

Wan 2.2とStable Video Infinityの組み合わせは、これまでのAI動画生成の限界を突破する強力なツールです。

特に、前のシーンのエラーをリサイクルして補正するSVIの仕組みは、長編ストーリーを作りたいクリエイターにとって革命的と言えます。

最初はノードの複雑さに戸惑うかもしれませんが、一度ループ構造のテンプレートを作ってしまえば、あとはプロンプトと開始画像を変えるだけで、無限の世界を描き出せます。ぜひ、あなたのPCで「終わらない動画」の生成に挑戦してみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。