【ComfyUI】Wan 2.2 Animate徹底解説！動画の人物をAIで完全置換するワークフロー

最新ワークフロー解説

動画の人物を自在に操る
Wan 2.2 Animateの世界

ComfyUIを使えば、ローカル環境で実写動画の人物をアニメキャラに置き換えたり、好きなキャラにダンスを踊らせたりすることが可能です。最新のWan 2.2 Animateワークフローを詳しく紐解いていきましょう。

🔄Mix Mode
人物置換

💃Move Mode
動き生成

⏱️Extend機能
長尺対応

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan 2.2 Animateとは？ - 動画編集の革命

AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で注目を集めている「Wan 2.2 Animate」のComfyUIワークフローについて解説します。

このワークフローの最大の特徴は、既存の動画（参照動画）をベースに、キャラクターの置き換えや動きの制御を極めて高い精度で行える点です。具体的には以下の2つのモードがあります。

Mix Mode（人物置換）: 参照動画の人物部分だけを、指定した画像のキャラクターに入れ替えます。背景は元の動画のまま維持されます。
Move Mode（動き生成）: 指定した画像のキャラクターに、参照動画の人物と同じ動きをさせます。背景もキャラクターの世界観に合わせて生成されます。

これまでの動画生成AIでは難しかった「一貫性のあるキャラクター制御」が、ローカル環境で実現できるようになりました。それでは、実装方法を見ていきましょう。

2. 必要な準備（カスタムノード・モデル）

このワークフローを動かすには、いくつかのカスタムノードとモデルファイルが必要です。ComfyUI Managerを活用して効率的に準備しましょう。

必須カスタムノード

ComfyUI Managerの「Custom Nodes Manager」から以下のノードを検索してインストールし、ComfyUIを再起動してください。

ComfyUI ControlNet Aux: DWPoseなどのプリプロセッサに必要です。
KJNodes for ComfyUI: 画像処理やユーティリティ機能を提供します。
ComfyUI Segment Anything 2: 人物と背景の分離に使用します。最新版をインストールしてください。
ComfyUI-VideoHelperSuite: 動画の読み込み（Load Video）や書き出しに必要です。

モデルファイルのダウンロードと配置

以下のモデルをHugging Face等からダウンロードし、指定のフォルダに配置します。特にVRAM容量に合わせてfp8モデルを活用することをお勧めします。

1. Diffusion Models
配置場所: ComfyUI/models/diffusion_models/

ファイル名: wan2.2_animate_14b_fp8_e5m2.safetensors
（RTX 40系未満の方はe5m2、40系以上の方はe4m3fnが推奨されています）
入手先: Hugging Face (Kijai/WanVideo_comfy_fp8_scaled)

2. LoRA
配置場所: ComfyUI/models/loras/

wan2.2_animate_14b_relight_lora.safetensors: Wan 2.2 Animate用のRelight LoRA。
Lightx2V_...rank64.safetensors: I2V（Image to Video）用のLightning系LoRA。Kijaiさんのリポジトリから入手可能です。

3. VAE & Encoders

VAE: wan_2.1_vae.safetensors → models/vae/
Text Encoder: umt5_xxl_fp8_e4m3fn.safetensors → models/text_encoders/
Clip Vision: clip_vision_h.safetensors → models/clip_vision/

3. ComfyUIワークフロー徹底解説

準備が整ったら、ワークフローを構築して実際に動画を生成してみましょう。公式やコミュニティで配布されている「Wan 2.2 Animate」用のJSONワークフローを読み込みます。

Step 1: モデルと基本設定のロード

Load Diffusion Model ノードで先ほどダウンロードしたfp8モデルを選択します。LoRAは2つ接続されており、1つはI2V用、もう1つはRelight用です。VAEは必ず Wan 2.1 のものを選択してください。

Step 2: 入力素材の準備

Load Image ノードに「動かしたいキャラクターの画像」を、Load Video (Upload) ノードに「動きの元となる動画（参照動画）」をアップロードします。

【重要】解像度設定のルール
Wan 2.2 Animateでは、動画の幅と高さが 16の倍数 である必要があります。例えば、1080x1920の動画をそのまま使うとエラーになる場合があるため、368x640 のようにリサイズ設定を行ってください。

Step 3: マスクによる領域指定（Points Editor）

Points Editor ノードを使って、AIに「どこが人物で、どこが背景か」を教えます。

緑の点: 保持したい領域（キャラクターとして認識させたい部分）に打ちます。Shift+左クリックで追加。
赤の点: 除外したい領域（背景など）に打ちます。Shift+右クリックで追加。

このマスク情報をもとに、Segment Anything 2 が人物を正確に切り抜きます。

Step 4: Mix Mode と Move Mode の切り替え

ここがワークフローの心臓部です。Video Sampling ノード（サブグラフ化されている場合があります）への入力接続を変えることでモードを切り替えます。

Mix Modeにする場合: Background Video と Character Mask の入力を接続します。これにより、背景は元の動画のまま、人物だけが置き換わります。
Move Modeにする場合: 上記の接続を切断します。すると、背景も含めてキャラクターの世界観で再生成されます。

4. クオリティアップと長尺生成のコツ

生成される動画のクオリティを上げたり、長い動画を作るためのポイントを解説します。

長尺動画への対応（Extend機能）

通常、GPUメモリの制限で生成できる長さには限界があります（例: 2〜3秒）。長い動画を作りたい場合は、Video Extend 機能を使います。

ワークフロー内の Video Extend サブグラフの設定で、length（生成フレーム数）と frame_offset（オーバーラップさせるフレーム数）を調整します。例えば、125フレームの動画なら、65フレームずつ2回に分けて生成し、後で結合するイメージです。

注意点: frame_offset を0にすると、つなぎ目で動画が停止してしまうことがあります。5〜8フレーム程度オーバーラップさせることで、自然なつながりを実現できます。

モデルの選択による最適化

お使いのGPUに合わせてモデルを使い分けることが重要です。

RTX 40シリーズ以上: e4m3fn モデルを使用すると、高速かつ高品質な生成が期待できます。
それ以外のGPU: e5m2 モデルの方が安定して動作する傾向があります。私の検証環境でも、e5m2の方が色の再現性が高い結果となりました。

5. まとめ

Wan 2.2 Animateは、ComfyUIと組み合わせることで、非常に高度な動画編集をローカル環境で実現します。特にMix Modeによる人物置換は、実写動画のVTuber化やアニメーション制作において強力なツールとなるでしょう。

ワークフローは一見複雑ですが、一度セットアップしてしまえば、あとは素材を差し替えるだけで量産が可能です。ぜひ、あなたのPCで新しい映像表現に挑戦してみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。