ComfyUI × WAN 2.1完全ガイド：動画内の人物を自在に置換する「Actor Replacement」の実装方法

動画の中へ、
誰でも入り込める時代へ。

ComfyUIと最新モデル「WAN 2.1」を駆使して、既存の動画の動きそのままに、人物だけを別人に入れ替える。魔法のような「Actor Replacement」技術を、あなたのローカル環境で再現しましょう。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. WAN 2.1 Animateとは？ - 人物置換の新たな標準

こんにちは、OKIHIROです。今回は、動画生成AI界隈で話題沸騰中の「WAN 2.1（通称：Wan-Animate）」を使用した人物置換技術について解説します。これは、Alibaba Cloudが開発した強力な動画生成モデルをベースに、既存の動画内の人物を、特定の画像のキャラクターに自然に置き換える技術です。

この技術の凄さは、単なる「顔交換（Face Swap）」ではない点にあります。「Actor Replacement（アクター・リプレイスメント）」と呼ばれるこの手法は、元の動画のライティング、カメラワーク、体の動きを完全に保持したまま、服や体型を含めたキャラクター全体を再描画します。

動画内では「Wan 2.2」や「Enhancor」というツール名で紹介されていますが、本記事ではこの技術の中核である「WAN 2.1」モデルをComfyUIで動かすための実践的なワークフローに焦点を当てて解説していきます。

2. 必要な準備：PCスペックとモデル導入

WAN 2.1は非常に高画質ですが、その分計算リソースを消費します。ローカル環境で動作させるためには、以下の準備が必要です。

推奨スペック

VRAM（ビデオメモリ）は16GB以上推奨です。24GBあると安定します。12GB以下の場合は、FP8量子化モデルの使用や、低解像度での生成が必要になります。

カスタムノードのインストール

ComfyUI Managerを使用して、以下のカスタムノード群をインストールしてください。検索窓に入力すればすぐに見つかります。

ComfyUI-WanVideoWrapper (または ComfyUI-Wan): モデルのロードと生成の核となります。
ComfyUI-KJNodes: 動画内で使用されている「Point Editor」など、便利なツールセットです。
ComfyUI-VideoHelperSuite: 動画の読み込み（Load Video）と保存（Video Combine）に必須です。

モデルのダウンロード

Hugging Faceからモデルファイルをダウンロードし、ComfyUIの所定のフォルダに配置します。

Checkpoints (14Bモデル): Alibaba-PAI/Wan2.1-I2V-14B などを検索し、models/checkpoints/ フォルダへ。
VAE: WAN専用のVAEが必要な場合があります。models/vae/ へ配置します。
Text Encoder: umt5-xxl-enc-bf16.safetensors などのT5エンコーダーが必要です。models/text_encoders/ へ。

3. ComfyUIワークフロー徹底解説

それでは、動画で紹介されていた「Actor Replacement」のバックエンド処理を再現するワークフローを構築していきましょう。ポイントは「セグメンテーション（対象選択）」と「再描画（Inpainting）」の組み合わせです。

Step 1: 素材の読み込み

まず、ベースとなる動画を Load Video (Upload) ノードで読み込みます。同時に、置き換えたいキャラクターの画像を Load Image ノードで読み込みます。

Step 2: 対象の指定 (Point Editor)

ここが動画内でも強調されていた重要パートです。KJNodes に含まれる Point Editor ノードを使用します。このノードを Load Video の出力に接続し、プレビュー画面上でインタラクティブに点を打ちます。

動画の解説によると、「緑色の点」を置き換えたい人物の上に、「赤色の点」を背景や変更したくない部分に打ちます。これにより、AIに対して「どの領域を再描画すべきか」を指示するマスク情報を作成します。

Step 3: WAN 2.1 モデルの設定

WanCheckpointLoader ノードでダウンロードしたモデルをロードします。ここで重要なのは、VRAM容量に応じて fp8_e4m3fn などの量子化設定を行うことです。

Step 4: 生成 (Image to Video)

WanImageToVideo (または関連するI2Vノード) に、以下の情報を接続します。

Base Video: Step 1の動画
Reference Image: Step 1のキャラクター画像
Mask: Step 2で作成したマスク情報
Prompt: 「a man sitting in a car」のように、シーンを説明するプロンプトを入力します。

これらを接続し、Queue Prompt を実行することで、動画の動きに合わせてキャラクターが置き換わります。

4. クオリティアップのコツ：720pとマスク調整

高品質な結果を得るためには、いくつかの調整ポイントがあります。動画内でのOKIHIRO氏（私と同名のペルソナですね💡）のアドバイスに基づき解説します。

動画解像度は720pに統一する

入力動画の解像度が高すぎると、処理落ちしたり品質が低下したりします。動画編集ソフトやffmpegを使用し、事前に1280x720 (720p) にリサイズしておくことを強く推奨します。長辺が2000pxを超えないようにしましょう。

マスクの位置ズレに注意

Point Editor で打った点は、動画の全フレームに対して適用されるわけではありません。通常はSAM（Segment Anything Model）などのトラッキング機能と組み合わせて、最初のフレームで指定した点を動画全体に追従させます。

もし生成結果がおかしい（背景まで変わってしまうなど）場合は、マスクが正しく人物を捉え続けているか、プレビューで確認してください。必要に応じて、マスク指定のフレームを変更するか、ポイントを打ち直します。

5. まとめ

WAN 2.1 Animateを使用したActor Replacementは、従来の技術と比較しても、動きの滑らかさと照明の馴染み方が圧倒的です。これまでは専門のスタジオでしかできなかったような編集が、個人のPCで可能になりつつあります。

ComfyUIでの構築は少し複雑に見えるかもしれませんが、一度組んでしまえば、あらゆる動画と画像を組み合わせて無限のクリエイティブを生み出せます。ぜひ、あなたの手で「魔法」を再現してみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。