Wan 2.2 Animateの世界
人物置換
動き生成
長尺対応
🎥 今回の参考動画はこちら ▼
1. Wan 2.2 Animateとは? - 動画編集の革命
AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で注目を集めている「Wan 2.2 Animate」のComfyUIワークフローについて解説します。
このワークフローの最大の特徴は、既存の動画(参照動画)をベースに、キャラクターの置き換えや動きの制御を極めて高い精度で行える点です。具体的には以下の2つのモードがあります。
- Mix Mode(人物置換): 参照動画の人物部分だけを、指定した画像のキャラクターに入れ替えます。背景は元の動画のまま維持されます。
- Move Mode(動き生成): 指定した画像のキャラクターに、参照動画の人物と同じ動きをさせます。背景もキャラクターの世界観に合わせて生成されます。
これまでの動画生成AIでは難しかった「一貫性のあるキャラクター制御」が、ローカル環境で実現できるようになりました。それでは、実装方法を見ていきましょう。
2. 必要な準備(カスタムノード・モデル)
このワークフローを動かすには、いくつかのカスタムノードとモデルファイルが必要です。ComfyUI Managerを活用して効率的に準備しましょう。
必須カスタムノード
ComfyUI Managerの「Custom Nodes Manager」から以下のノードを検索してインストールし、ComfyUIを再起動してください。
ComfyUI ControlNet Aux: DWPoseなどのプリプロセッサに必要です。KJNodes for ComfyUI: 画像処理やユーティリティ機能を提供します。ComfyUI Segment Anything 2: 人物と背景の分離に使用します。最新版をインストールしてください。ComfyUI-VideoHelperSuite: 動画の読み込み(Load Video)や書き出しに必要です。
モデルファイルのダウンロードと配置
以下のモデルをHugging Face等からダウンロードし、指定のフォルダに配置します。特にVRAM容量に合わせてfp8モデルを活用することをお勧めします。
1. Diffusion Models
配置場所: ComfyUI/models/diffusion_models/
- ファイル名:
wan2.2_animate_14b_fp8_e5m2.safetensors
(RTX 40系未満の方はe5m2、40系以上の方はe4m3fnが推奨されています)
入手先: Hugging Face (Kijai/WanVideo_comfy_fp8_scaled)
2. LoRA
配置場所: ComfyUI/models/loras/
wan2.2_animate_14b_relight_lora.safetensors: Wan 2.2 Animate用のRelight LoRA。Lightx2V_...rank64.safetensors: I2V(Image to Video)用のLightning系LoRA。Kijaiさんのリポジトリから入手可能です。
3. VAE & Encoders
- VAE:
wan_2.1_vae.safetensors→models/vae/ - Text Encoder:
umt5_xxl_fp8_e4m3fn.safetensors→models/text_encoders/ - Clip Vision:
clip_vision_h.safetensors→models/clip_vision/
3. ComfyUIワークフロー徹底解説
準備が整ったら、ワークフローを構築して実際に動画を生成してみましょう。公式やコミュニティで配布されている「Wan 2.2 Animate」用のJSONワークフローを読み込みます。
Step 1: モデルと基本設定のロード
Load Diffusion Model ノードで先ほどダウンロードしたfp8モデルを選択します。LoRAは2つ接続されており、1つはI2V用、もう1つはRelight用です。VAEは必ず Wan 2.1 のものを選択してください。
Step 2: 入力素材の準備
Load Image ノードに「動かしたいキャラクターの画像」を、Load Video (Upload) ノードに「動きの元となる動画(参照動画)」をアップロードします。
【重要】解像度設定のルール
Wan 2.2 Animateでは、動画の幅と高さが 16の倍数 である必要があります。例えば、1080x1920の動画をそのまま使うとエラーになる場合があるため、368x640 のようにリサイズ設定を行ってください。
Step 3: マスクによる領域指定(Points Editor)
Points Editor ノードを使って、AIに「どこが人物で、どこが背景か」を教えます。
- 緑の点: 保持したい領域(キャラクターとして認識させたい部分)に打ちます。Shift+左クリックで追加。
- 赤の点: 除外したい領域(背景など)に打ちます。Shift+右クリックで追加。
このマスク情報をもとに、Segment Anything 2 が人物を正確に切り抜きます。
Step 4: Mix Mode と Move Mode の切り替え
ここがワークフローの心臓部です。Video Sampling ノード(サブグラフ化されている場合があります)への入力接続を変えることでモードを切り替えます。
- Mix Modeにする場合:
Background VideoとCharacter Maskの入力を接続します。これにより、背景は元の動画のまま、人物だけが置き換わります。 - Move Modeにする場合: 上記の接続を切断します。すると、背景も含めてキャラクターの世界観で再生成されます。
4. クオリティアップと長尺生成のコツ
生成される動画のクオリティを上げたり、長い動画を作るためのポイントを解説します。
長尺動画への対応(Extend機能)
通常、GPUメモリの制限で生成できる長さには限界があります(例: 2〜3秒)。長い動画を作りたい場合は、Video Extend 機能を使います。
ワークフロー内の Video Extend サブグラフの設定で、length(生成フレーム数)と frame_offset(オーバーラップさせるフレーム数)を調整します。例えば、125フレームの動画なら、65フレームずつ2回に分けて生成し、後で結合するイメージです。
注意点: frame_offset を0にすると、つなぎ目で動画が停止してしまうことがあります。5〜8フレーム程度オーバーラップさせることで、自然なつながりを実現できます。
モデルの選択による最適化
お使いのGPUに合わせてモデルを使い分けることが重要です。
- RTX 40シリーズ以上:
e4m3fnモデルを使用すると、高速かつ高品質な生成が期待できます。 - それ以外のGPU:
e5m2モデルの方が安定して動作する傾向があります。私の検証環境でも、e5m2の方が色の再現性が高い結果となりました。
5. まとめ
Wan 2.2 Animateは、ComfyUIと組み合わせることで、非常に高度な動画編集をローカル環境で実現します。特にMix Modeによる人物置換は、実写動画のVTuber化やアニメーション制作において強力なツールとなるでしょう。
ワークフローは一見複雑ですが、一度セットアップしてしまえば、あとは素材を差し替えるだけで量産が可能です。ぜひ、あなたのPCで新しい映像表現に挑戦してみてください。
