ComfyUIのノード画面と、AIによって人物が切り替わる様子を表した未来的なワークスペースのイメージ画像。

WAN (WanVideo)

【ComfyUI】WAN 2.2 Animateで動画の人物置換!低VRAM(12GB)でも動く最適化&長尺生成ガイド

広告

VRAM 12GB OK 🚀
WAN 2.2 Animate × ComfyUI
動画の「人物置換」完全攻略

映画級の動画生成モデルを、家庭用GPUで動かすための「GGUF最適化」と「長尺生成」の極意。もうVRAM不足には泣かせません。


🎥 今回の参考動画はこちら



1. WAN 2.2 Animateとは? - できることの要約

こんにちは、OKIHIROです。今回は、動画生成AI界隈で話題沸騰中の「WAN 2.2 Animate」をComfyUIで使い倒す方法を解説します。

このモデルの最大の特徴は、「動画内の人物の動きを維持したまま、キャラクターだけを別人に書き換える(Video-to-Video)」という高度な処理を、驚くほど自然に行える点です。しかし、オリジナルのモデル(14Bパラメータ)を動かすには、通常32GB以上のVRAMが必要という高いハードルがありました。

本記事では、「GGUF量子化」という技術を使ってモデルを軽量化し、VRAM 12GBクラスの一般的なGPU(RTX 3060/4070など)で動作させる方法を共有します。さらに、通常2秒程度しか生成できない動画を、シームレスに繋げて長尺化するテクニックも合わせて紹介します。

2. 必要な準備(PCスペック・モデル・カスタムノード)

まずは環境構築です。以下のリストに従って準備を進めてください。

推奨PCスペック

  • GPU: NVIDIA RTX 3060 (12GB) 以上推奨
  • メモリ: 32GB以上推奨
  • ストレージ: 高速なSSD(モデルファイルが大きいため)

必要なAIモデル (Hugging Face)

軽量化された「GGUF形式」のモデルを使用します。以下のリンクからダウンロードし、ComfyUIの指定フォルダに配置してください。

1. メインモデル (UNet)
配布元: QuantStack/Wan2.2-Animate-14B-GGUF
推奨ファイル: Wan2.2-Animate-14B-Q3_K_S.gguf (約8GB)
配置先: ComfyUI/models/unet/
※ VRAMに余裕がある場合は Q4_K_M でもOKですが、12GB環境なら Q3_K_S が安全圏です。

2. テキストエンコーダー (T5)
配布元: city96/umt5-xxl-encoder-gguf
推奨ファイル: umt5-xxl-encoder-Q8_0.gguf など
配置先: ComfyUI/models/text_encoders/ または clip/

必須カスタムノード (GitHub)

ComfyUI Managerを使って以下のノードをインストールします。検索で見つからない場合は、URLから直接インストールしてください。

  • ComfyUI-GGUF (by city96)
    GGUFモデルを読み込むために必須です。
    URL: https://github.com/city96/ComfyUI-GGUF
  • ComfyUI_LayerStyle (by chflame163)
    VRAMを強制解放する Purge VRAM ノードが含まれています。
    URL: https://github.com/chflame163/ComfyUI_LayerStyle
  • ComfyUI-KJNodes (by Kijai)
    動画処理の補助に使用します。

3. ComfyUIワークフロー徹底解説

それでは、VRAM 12GBで動作させるための最適化ワークフローを構築していきましょう。

Step 1: GGUFモデルのロード

通常の Load Checkpoint ではなく、Unet Loader (GGUF) ノードを使用します。ここで先ほどダウンロードした Q3_K_S.gguf ファイルを選択します。これにより、モデルのメモリ消費量を劇的に(約1/3〜1/4に)抑えることができます。

Step 2: 解像度の最適化 (480p)

VRAM消費量は「解像度」と「フレーム数」に比例します。12GB環境で安定動作させるための黄金比は以下の通りです。

  • Width: 432 (または480)
  • Height: 768 (または480)
  • Frames: 33〜65程度

「解像度が低いのでは?」と思われるかもしれませんが、まずはこのサイズで生成し、後からアップスケーラーで高画質化するのがAI動画制作の定石です。

Step 3: 「Purge VRAM」でメモリを掃除する

ここが今回の最重要ポイントです。処理の合間にVRAMを強制的に空にするノードを挟みます。

LayerUtility: Purge VRAM ノードを以下の場所に配置し、ワイヤーを繋いでください。

  1. SAM2 (セグメンテーション) の直後: 人物切り抜きの計算が終わったら即座にメモリを解放。
  2. Set Face (顔認識) の直後: 顔の特徴抽出が終わったら解放。
  3. Encode Clip (テキスト処理) の直後: プロンプトの解釈が終わったら解放。

この「こまめな掃除」により、ピーク時のVRAM使用量を12GB以下に抑え込むことが可能になります。

4. 長尺動画生成:「continue_motion」の魔法

通常、WAN 2.2 Animateは一度に2〜4秒(約60フレーム)程度しか生成できません。これを延長するには、「前の動画の続き」として次の動画を生成させるテクニックを使います。

実装方法

  1. ワークフローを複製する:
    同じ生成フロー(KSamplerなど)をもう一つ下に用意します。
  2. WanAnimateToVideo ノードを接続:
    2つ目の生成ブロックにある WanAnimateToVideo ノードの continue_motion 入力ピンに、1つ目のブロックで生成された映像(LatentではなくPixel画像)を接続します。
  3. ImageFromBatch ノードの活用:
    前の動画の「最後の数フレーム」だけを切り取って渡すとスムーズに繋がります。
  4. 結合する:
    最後に Image Batch Multi ノードで2つの動画を結合し、Video Combine で書き出します。

この手法を使えば、VRAMをパンクさせることなく、理論上は無限に動画を長くしていくことができます。

5. まとめ

今回のチュートリアルのポイントを振り返ります。

  • GGUF量子化モデル (Q3_K_S) を使うことで、32GB必要なモデルを8GB程度のVRAMで扱えるようになる。
  • 解像度を480p周辺に抑えることが、低スペックPCでの安定動作の鍵。
  • Purge VRAM ノードを要所に配置し、メモリの「食いっぱなし」を防ぐ。
  • continue_motion を使って動画を継ぎ足せば、長尺動画も生成可能。

「高スペックPCがないから…」と諦めていた方も、この設定なら最先端のAI動画生成を体験できるはずです。ぜひ、あなたのPCで「映画のようなワンシーン」を作ってみてください🚀


この記事の自動化に使われた技術と思考法は、
すべて私の講座で「思考OS」としてインストールできます。

ツールを「使う側」から、AIを指揮して「創る側」へ。
あなたも自分だけの自動化システムを構築しませんか?

AI司令官養成ブートキャンプ
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-WAN (WanVideo)
-, , , ,