動画の「人物置換」完全攻略
映画級の動画生成モデルを、家庭用GPUで動かすための「GGUF最適化」と「長尺生成」の極意。もうVRAM不足には泣かせません。
🎥 今回の参考動画はこちら ▼
1. WAN 2.2 Animateとは? - できることの要約
こんにちは、OKIHIROです。今回は、動画生成AI界隈で話題沸騰中の「WAN 2.2 Animate」をComfyUIで使い倒す方法を解説します。
このモデルの最大の特徴は、「動画内の人物の動きを維持したまま、キャラクターだけを別人に書き換える(Video-to-Video)」という高度な処理を、驚くほど自然に行える点です。しかし、オリジナルのモデル(14Bパラメータ)を動かすには、通常32GB以上のVRAMが必要という高いハードルがありました。
本記事では、「GGUF量子化」という技術を使ってモデルを軽量化し、VRAM 12GBクラスの一般的なGPU(RTX 3060/4070など)で動作させる方法を共有します。さらに、通常2秒程度しか生成できない動画を、シームレスに繋げて長尺化するテクニックも合わせて紹介します。
2. 必要な準備(PCスペック・モデル・カスタムノード)
まずは環境構築です。以下のリストに従って準備を進めてください。
推奨PCスペック
- GPU: NVIDIA RTX 3060 (12GB) 以上推奨
- メモリ: 32GB以上推奨
- ストレージ: 高速なSSD(モデルファイルが大きいため)
必要なAIモデル (Hugging Face)
軽量化された「GGUF形式」のモデルを使用します。以下のリンクからダウンロードし、ComfyUIの指定フォルダに配置してください。
1. メインモデル (UNet)
配布元: QuantStack/Wan2.2-Animate-14B-GGUF
推奨ファイル: Wan2.2-Animate-14B-Q3_K_S.gguf (約8GB)
配置先: ComfyUI/models/unet/
※ VRAMに余裕がある場合は Q4_K_M でもOKですが、12GB環境なら Q3_K_S が安全圏です。
2. テキストエンコーダー (T5)
配布元: city96/umt5-xxl-encoder-gguf
推奨ファイル: umt5-xxl-encoder-Q8_0.gguf など
配置先: ComfyUI/models/text_encoders/ または clip/
必須カスタムノード (GitHub)
ComfyUI Managerを使って以下のノードをインストールします。検索で見つからない場合は、URLから直接インストールしてください。
- ComfyUI-GGUF (by city96)
GGUFモデルを読み込むために必須です。
URL:https://github.com/city96/ComfyUI-GGUF - ComfyUI_LayerStyle (by chflame163)
VRAMを強制解放するPurge VRAMノードが含まれています。
URL:https://github.com/chflame163/ComfyUI_LayerStyle - ComfyUI-KJNodes (by Kijai)
動画処理の補助に使用します。
3. ComfyUIワークフロー徹底解説
それでは、VRAM 12GBで動作させるための最適化ワークフローを構築していきましょう。
Step 1: GGUFモデルのロード
通常の Load Checkpoint ではなく、Unet Loader (GGUF) ノードを使用します。ここで先ほどダウンロードした Q3_K_S.gguf ファイルを選択します。これにより、モデルのメモリ消費量を劇的に(約1/3〜1/4に)抑えることができます。
Step 2: 解像度の最適化 (480p)
VRAM消費量は「解像度」と「フレーム数」に比例します。12GB環境で安定動作させるための黄金比は以下の通りです。
- Width: 432 (または480)
- Height: 768 (または480)
- Frames: 33〜65程度
「解像度が低いのでは?」と思われるかもしれませんが、まずはこのサイズで生成し、後からアップスケーラーで高画質化するのがAI動画制作の定石です。
Step 3: 「Purge VRAM」でメモリを掃除する
ここが今回の最重要ポイントです。処理の合間にVRAMを強制的に空にするノードを挟みます。
LayerUtility: Purge VRAM ノードを以下の場所に配置し、ワイヤーを繋いでください。
- SAM2 (セグメンテーション) の直後: 人物切り抜きの計算が終わったら即座にメモリを解放。
- Set Face (顔認識) の直後: 顔の特徴抽出が終わったら解放。
- Encode Clip (テキスト処理) の直後: プロンプトの解釈が終わったら解放。
この「こまめな掃除」により、ピーク時のVRAM使用量を12GB以下に抑え込むことが可能になります。
4. 長尺動画生成:「continue_motion」の魔法
通常、WAN 2.2 Animateは一度に2〜4秒(約60フレーム)程度しか生成できません。これを延長するには、「前の動画の続き」として次の動画を生成させるテクニックを使います。
実装方法
- ワークフローを複製する:
同じ生成フロー(KSamplerなど)をもう一つ下に用意します。 WanAnimateToVideoノードを接続:
2つ目の生成ブロックにあるWanAnimateToVideoノードのcontinue_motion入力ピンに、1つ目のブロックで生成された映像(LatentではなくPixel画像)を接続します。ImageFromBatchノードの活用:
前の動画の「最後の数フレーム」だけを切り取って渡すとスムーズに繋がります。- 結合する:
最後にImage Batch Multiノードで2つの動画を結合し、Video Combineで書き出します。
この手法を使えば、VRAMをパンクさせることなく、理論上は無限に動画を長くしていくことができます。
5. まとめ
今回のチュートリアルのポイントを振り返ります。
- GGUF量子化モデル (Q3_K_S) を使うことで、32GB必要なモデルを8GB程度のVRAMで扱えるようになる。
- 解像度を480p周辺に抑えることが、低スペックPCでの安定動作の鍵。
Purge VRAMノードを要所に配置し、メモリの「食いっぱなし」を防ぐ。continue_motionを使って動画を継ぎ足せば、長尺動画も生成可能。
「高スペックPCがないから…」と諦めていた方も、この設定なら最先端のAI動画生成を体験できるはずです。ぜひ、あなたのPCで「映画のようなワンシーン」を作ってみてください🚀
