【ComfyUI】最新動画生成AI「Wan 2.1」で人物置換と写真アニメーションを実現する方法

NEW MOVIE GEN

Wan 2.1 Animate × ComfyUI
動画生成の常識が変わる

Web版で話題の「人物置換」や「写真アニメーション」。
その裏側にある強力なWanモデルを、
あなたのPCで自在に操るための
技術ガイドです。

ワークフローを見る ▼

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan 2.2 / 2.5 Animateとは？ - 動画生成の新たな地平

こんにちは、OKIHIROです。今回の動画で紹介されている「Wan 2.2 Animate」および「Wan 2.5」は、Alibaba Cloud発の最新動画生成モデルファミリーです。

動画内では、主に以下の2つの衝撃的な機能が紹介されています。

Character Swap (Avatar): 自分の演技動画に、他人の写真を適用して動きを同期させる「人物置換」技術。
Photo Animate: 1枚の写真に動き（動画）のモーションを適用し、まるでその人が演技しているかのような動画を生成する技術。

これらはWeb版ツールとしての紹介ですが、そのコア技術である「Wan 2.1」モデルはComfyUIでも利用可能です。本記事では、この強力な表現力をローカル環境で再現する方法を解説します。

2. 必要な準備（PCスペック・モデル・カスタムノード）

ComfyUIでWanモデルを動かすには、以下の準備が必要です。

推奨スペック

VRAM 16GB以上推奨（最低12GB）。Wanモデル（特に14B版）は非常に高画質ですが、その分リソースを消費します。

必須カスタムノード

開発者Kijai氏によるラッパーノードが最も使いやすく安定しています。

Node: ComfyUI-WanVideoWrapper
Install: ComfyUI Managerで「WanVideoWrapper」と検索してインストール、またはcustom_nodesフォルダでgit clone https://github.com/kijai/ComfyUI-WanVideoWrapper.gitを実行。

モデルのダウンロード

Hugging Faceからモデルをダウンロードし、ComfyUI/models/diffusion_models（または指定のフォルダ）に配置します。

Model: Wan-AI/Wan2.1-I2V-14B-480P (Image-to-Video用)
Text Encoder: umt5_xxl_fp8_e4m3fn.safetensors (テキスト理解用)

3. ComfyUIワークフロー徹底解説

動画にあるような「写真から動画を生成（Photo Animate）」する基本的なI2V（Image-to-Video）ワークフローを組みます。

主要ノードの接続

まず、WanVideoModelLoaderノードを配置し、ダウンロードしたcheckpoint（14Bモデル）とT5エンコーダー（umt5）を選択します。ここでロードしたモデル出力を、メインのサンプラーノードに渡します。

次に、元となる写真を読み込むためにLoad Imageノードを使用します。この画像の解像度は、モデルが学習しているアスペクト比（例: 832x480など）に合わせてリサイズしておくとエラーを防げます。

WanVideoTextEncodeノードでは、生成したい動画の内容をテキスト（プロンプト）で指示します。動画内のように「人物が走っている」「カメラに向かって話している」といった具体的な指示を入力し、これをモデルローダーのコンディショニング入力に接続します。

最後に、これらをKSampler（またはWan専用サンプラー）に接続して生成を実行します。生成されたLatentデータはVAE Decodeを通して動画ファイルとして保存されます。

💡 ポイント: 動画内の「Character Swap」を再現するには、単純なI2Vではなく、ControlNet（OpenPoseやDepth）の併用が必要です。Wan対応のControlNetモデルが登場し次第、ワークフローに組み込むことで、入力動画のポーズを維持したまま人物を入れ替えることが可能になります。

4. 動画から学ぶパラメータ調整のコツ

動画内の失敗例（Limitation）は、ComfyUIでの設定において非常に重要なヒントになります。

手や足の破綻を防ぐ

動画では、人物の手が物体と一体化したり、足のトラッキングが外れる例がありました。これを防ぐには、Negative Promptにmalformed hands, disappearing limbs, extra fingersなどを強力に入れることが基本です。

一貫性の維持

Wan 2.5の例として紹介された「カメラを落とすシーン」での一貫性の乱れについては、ComfyUIならimg2imgのDenoise強度を下げることで、元画像の特徴をより強く維持できます。0.6〜0.8あたりから調整を始めると良いでしょう。

5. まとめ

Wan 2.1 / 2.2系モデルは、Webツールでも強力ですが、ComfyUIを使うことで「解像度のカスタマイズ」「他のLoRAとの組み合わせ」「詳細なネガティブプロンプト指定」など、自由度が格段に向上します。

ぜひPC1台で、映画級の動画編集ワークフローを構築してみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。