ComfyUIとWan 2.2 Animateで動画の人物を別人へ！完全置換ワークフロー徹底解説

ComfyUI Tutorial

動画の中へ飛び込もう。
Wan 2.2 Animateで
「自分」を再構築する。

実写動画の動きはそのままに、被写体をロボットやアニメキャラへ完全置換。最新の「Wan 2.2 Animate」モデルとComfyUIを使えば、映画級のVFXがPC1台で完結します。その具体的な手順を、コードレベルで紐解いていきましょう。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan 2.2 Animateとは？ - 従来の動画変換との違い

AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で話題沸騰中のWan 2.2 Animate（WanVideo）をComfyUIで動かす方法を解説します。

従来の「Video to Video」は、動画全体にフィルターをかけるような変換が主流でした。しかし、今回紹介するWan 2.2 Animateのアプローチは根本的に異なります。これは「被写体の完全な置換」に特化した技術です。

具体的には、動画内の人物だけをマスクで切り抜き、その動き（モーション）と光の当たり具合（ライティング）を維持したまま、全く別のキャラクター（ロボットやアニメキャラなど）として再生成します。背景は実写のまま、人物だけを違和感なく3DCG風にするような高度な編集が可能になります。

2. 必要な準備（カスタムノードとモデル）

このワークフローを動かすには、いくつかの準備が必要です。ComfyUIの環境構築が済んでいる前提で、必要なコンポーネントを導入していきましょう。

必須カスタムノード: ComfyUI-WanVideoWrapper

まずは、WanVideoモデルをComfyUIで扱うためのラッパーノードをインストールします。以下のリポジトリを使用します。

リポジトリ名: ComfyUI-WanVideoWrapper
開発者: Kijai氏
インストール方法: ComfyUIの custom_nodes フォルダ内で git clone するか、ComfyUI Managerで「WanVideoWrapper」と検索してインストールしてください。

【重要】依存関係のインストール

インストール後、必ずターミナルで custom_nodes/ComfyUI-WanVideoWrapper フォルダに移動し、以下のコマンドを実行してPythonの依存ライブラリを入れてください。これを忘れるとエラーになります。

pip install -r requirements.txt

モデルのダウンロード

次に、推論に使用するモデルファイルを入手します。動画内ではFP8（8ビット浮動小数点）版を使用してVRAM使用量を抑えています。Hugging FaceのKijai氏のリポジトリなどから以下のファイルをダウンロードし、ComfyUIの models/diffusion_models（または指定のフォルダ）に配置してください。

モデル名: Wan2_1-T2V-14B_fp8_e4m3fn.safetensors (または動画内で示されているWan2.2表記のもの)
推奨VRAM: 16GB以上（FP8版使用時）

3. ComfyUIワークフロー徹底解説

それでは、実際のワークフロー構築に入りましょう。基本的には ComfyUI-WanVideoWrapper のExampleフォルダに含まれている wanvideo_Wan2_Animate_example_01.json をベースに進めます。

STEP 1: 参照画像と参照動画の読み込み

まず、変換の「ゴール」となる画像と「動きの元」となる動画を用意します。

Reference Image (参照画像): 生成したいキャラクターの画像です。今回は「未来的なロボット」の画像をロードします。
Reference Video (参照動画): 動きをトレースしたい元の動画です。ここでは「地図を見ている人物」の動画を使用します。

STEP 2: Segment Anything (SAM2) によるマスキング

ここがこのワークフローの肝です。動画全体を変換するのではなく、人物だけを切り抜くためにSAM2（Segment Anything Model 2）を使用します。

ワークフロー内の Point Editor ノードを使って、インタラクティブにマスク領域を指定します。

緑のドット (Shift + 左クリック): マスクに含める領域（人物の体、手など）を指定します。
赤のドット (Shift + 右クリック): マスクから除外する領域を指定します。

これにより、AIに対して「この黒いシルエットの部分だけを、参照画像のロボットに書き換えてください」と指示を出すことができます。

STEP 3: DWPoseとFace Imagesによる特徴抽出

単に形を合わせるだけでなく、顔の向きや手足のポーズを正確に反映させるために、以下の処理を行います。

DWPose Estimator: 動画から人物の骨格（ポーズ）情報を抽出します。これにより、ロボットが元動画と同じポーズを取るようになります。
Face Images: 元動画から顔部分をクロップし、表情のニュアンスをAIに伝えます。

これらの情報はすべて WanVideo Animate Embeds という巨大なノードに集約されます。このノードが、画像・動画・マスク・ポーズ情報を統合する司令塔の役割を果たします。

STEP 4: 生成設定と実行

最後に WanVideo Sampler ノードで生成を実行します。ここで重要なのが frame_window_size（フレームウィンドウサイズ）の設定です。

動画全体を一気に生成しようとすると、膨大なVRAMが必要になりPCがクラッシュします。そこで、動画を短い区切り（バッチ）に分けて処理させます。

設定例: frame_window_size を「77」や「81」などに設定します。

こうすることで、例えば500フレームある動画でも、77フレームずつ順番に処理され、最終的に1本の動画として結合されます。家庭用のGPUでも長編動画の変換が可能になる重要なテクニックです。

4. クオリティアップのコツ

さらにクオリティを上げるためのTipsをいくつか紹介します。

1. マスク領域の拡張 (Grow Mask)

SAM2で作成したマスクは、被写体にピッタリすぎることがあります。Grow Mask ノードを使ってマスクを少し広げる（Expand）ことで、生成されたキャラクターと背景の境界線が自然になります。

2. LoRAの活用

特定のキャラクターや画風に固定したい場合は、WanVideo Lora Select ノードを追加して、対応するLoRAモデルを接続してください。モデルの表現力が向上し、一貫性が増します。

3. 表情だけの転送

全身を置換するのではなく、背景や服装はそのままで「顔の表情だけ」を別のアニメキャラに変えることも可能です。その場合はマスクの範囲を顔だけに限定し、Reference Imageにアニメ顔のアップ画像を使用します。

5. まとめ

Wan 2.2 Animateを使えば、実写動画のリアリティとAIの創造性を組み合わせた、全く新しい映像表現が可能になります。

これまでは専門のVFXスタジオでしか作れなかったような映像が、ComfyUIを使えば個人のPCで生成できる時代になりました。ぜひこのワークフローを試して、あなただけの「変身動画」を作ってみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。