【ComfyUI】WAN 2.2 Animateで動画の人物置換！低VRAM(12GB)でも動く最適化＆長尺生成ガイド

VRAM 12GB OK 🚀

WAN 2.2 Animate × ComfyUI
動画の「人物置換」完全攻略

映画級の動画生成モデルを、家庭用GPUで動かすための「GGUF最適化」と「長尺生成」の極意。もうVRAM不足には泣かせません。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. WAN 2.2 Animateとは？ - できることの要約

こんにちは、OKIHIROです。今回は、動画生成AI界隈で話題沸騰中の「WAN 2.2 Animate」をComfyUIで使い倒す方法を解説します。

このモデルの最大の特徴は、「動画内の人物の動きを維持したまま、キャラクターだけを別人に書き換える（Video-to-Video）」という高度な処理を、驚くほど自然に行える点です。しかし、オリジナルのモデル（14Bパラメータ）を動かすには、通常32GB以上のVRAMが必要という高いハードルがありました。

本記事では、「GGUF量子化」という技術を使ってモデルを軽量化し、VRAM 12GBクラスの一般的なGPU（RTX 3060/4070など）で動作させる方法を共有します。さらに、通常2秒程度しか生成できない動画を、シームレスに繋げて長尺化するテクニックも合わせて紹介します。

2. 必要な準備（PCスペック・モデル・カスタムノード）

まずは環境構築です。以下のリストに従って準備を進めてください。

推奨PCスペック

GPU: NVIDIA RTX 3060 (12GB) 以上推奨
メモリ: 32GB以上推奨
ストレージ: 高速なSSD（モデルファイルが大きいため）

必要なAIモデル (Hugging Face)

軽量化された「GGUF形式」のモデルを使用します。以下のリンクからダウンロードし、ComfyUIの指定フォルダに配置してください。

1. メインモデル (UNet)
配布元: QuantStack/Wan2.2-Animate-14B-GGUF
推奨ファイル: Wan2.2-Animate-14B-Q3_K_S.gguf (約8GB)
配置先: ComfyUI/models/unet/
※ VRAMに余裕がある場合は Q4_K_M でもOKですが、12GB環境なら Q3_K_S が安全圏です。

2. テキストエンコーダー (T5)
配布元: city96/umt5-xxl-encoder-gguf
推奨ファイル: umt5-xxl-encoder-Q8_0.gguf など
配置先: ComfyUI/models/text_encoders/ または clip/

必須カスタムノード (GitHub)

ComfyUI Managerを使って以下のノードをインストールします。検索で見つからない場合は、URLから直接インストールしてください。

ComfyUI-GGUF (by city96)
GGUFモデルを読み込むために必須です。
URL: https://github.com/city96/ComfyUI-GGUF
ComfyUI_LayerStyle (by chflame163)
VRAMを強制解放する Purge VRAM ノードが含まれています。
URL: https://github.com/chflame163/ComfyUI_LayerStyle
ComfyUI-KJNodes (by Kijai)
動画処理の補助に使用します。

3. ComfyUIワークフロー徹底解説

それでは、VRAM 12GBで動作させるための最適化ワークフローを構築していきましょう。

Step 1: GGUFモデルのロード

通常の Load Checkpoint ではなく、Unet Loader (GGUF) ノードを使用します。ここで先ほどダウンロードした Q3_K_S.gguf ファイルを選択します。これにより、モデルのメモリ消費量を劇的に（約1/3〜1/4に）抑えることができます。

Step 2: 解像度の最適化 (480p)

VRAM消費量は「解像度」と「フレーム数」に比例します。12GB環境で安定動作させるための黄金比は以下の通りです。

Width: 432 (または480)
Height: 768 (または480)
Frames: 33〜65程度

「解像度が低いのでは？」と思われるかもしれませんが、まずはこのサイズで生成し、後からアップスケーラーで高画質化するのがAI動画制作の定石です。

Step 3: 「Purge VRAM」でメモリを掃除する

ここが今回の最重要ポイントです。処理の合間にVRAMを強制的に空にするノードを挟みます。

LayerUtility: Purge VRAM ノードを以下の場所に配置し、ワイヤーを繋いでください。

SAM2 (セグメンテーション) の直後: 人物切り抜きの計算が終わったら即座にメモリを解放。
Set Face (顔認識) の直後: 顔の特徴抽出が終わったら解放。
Encode Clip (テキスト処理) の直後: プロンプトの解釈が終わったら解放。

この「こまめな掃除」により、ピーク時のVRAM使用量を12GB以下に抑え込むことが可能になります。

4. 長尺動画生成：「continue_motion」の魔法

通常、WAN 2.2 Animateは一度に2〜4秒（約60フレーム）程度しか生成できません。これを延長するには、「前の動画の続き」として次の動画を生成させるテクニックを使います。

実装方法

ワークフローを複製する:
同じ生成フロー（KSamplerなど）をもう一つ下に用意します。
WanAnimateToVideo ノードを接続:
2つ目の生成ブロックにある WanAnimateToVideo ノードの continue_motion 入力ピンに、1つ目のブロックで生成された映像（LatentではなくPixel画像）を接続します。
ImageFromBatch ノードの活用:
前の動画の「最後の数フレーム」だけを切り取って渡すとスムーズに繋がります。
結合する:
最後に Image Batch Multi ノードで2つの動画を結合し、Video Combine で書き出します。

この手法を使えば、VRAMをパンクさせることなく、理論上は無限に動画を長くしていくことができます。

5. まとめ

今回のチュートリアルのポイントを振り返ります。

GGUF量子化モデル (Q3_K_S) を使うことで、32GB必要なモデルを8GB程度のVRAMで扱えるようになる。
解像度を480p周辺に抑えることが、低スペックPCでの安定動作の鍵。
Purge VRAM ノードを要所に配置し、メモリの「食いっぱなし」を防ぐ。
continue_motion を使って動画を継ぎ足せば、長尺動画も生成可能。

「高スペックPCがないから…」と諦めていた方も、この設定なら最先端のAI動画生成を体験できるはずです。ぜひ、あなたのPCで「映画のようなワンシーン」を作ってみてください🚀

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。