未来的なモニター画面上で、静止画のポートレートがノードによって接続され、動くフェニックスの動画へと変換されているComfyUIのイメージ画像。

WAN (WanVideo)

【ComfyUI】最新動画生成AI「Wan 2.1」で人物置換と写真アニメーションを実現する方法

広告

NEW MOVIE GEN
Wan 2.1 Animate × ComfyUI
動画生成の常識が変わる

Web版で話題の「人物置換」や「写真アニメーション」。
その裏側にある強力なWanモデルを、
あなたのPCで自在に操るための
技術ガイドです。

ワークフローを見る ▼

🎥 今回の参考動画はこちら



1. Wan 2.2 / 2.5 Animateとは? - 動画生成の新たな地平

こんにちは、OKIHIROです。今回の動画で紹介されている「Wan 2.2 Animate」および「Wan 2.5」は、Alibaba Cloud発の最新動画生成モデルファミリーです。

動画内では、主に以下の2つの衝撃的な機能が紹介されています。

  • Character Swap (Avatar): 自分の演技動画に、他人の写真を適用して動きを同期させる「人物置換」技術。
  • Photo Animate: 1枚の写真に動き(動画)のモーションを適用し、まるでその人が演技しているかのような動画を生成する技術。

これらはWeb版ツールとしての紹介ですが、そのコア技術である「Wan 2.1」モデルはComfyUIでも利用可能です。本記事では、この強力な表現力をローカル環境で再現する方法を解説します。

2. 必要な準備(PCスペック・モデル・カスタムノード)

ComfyUIでWanモデルを動かすには、以下の準備が必要です。

推奨スペック

VRAM 16GB以上推奨(最低12GB)。Wanモデル(特に14B版)は非常に高画質ですが、その分リソースを消費します。

必須カスタムノード

開発者Kijai氏によるラッパーノードが最も使いやすく安定しています。

  • Node: ComfyUI-WanVideoWrapper
  • Install: ComfyUI Managerで「WanVideoWrapper」と検索してインストール、またはcustom_nodesフォルダでgit clone https://github.com/kijai/ComfyUI-WanVideoWrapper.gitを実行。

モデルのダウンロード

Hugging Faceからモデルをダウンロードし、ComfyUI/models/diffusion_models(または指定のフォルダ)に配置します。

  • Model: Wan-AI/Wan2.1-I2V-14B-480P (Image-to-Video用)
  • Text Encoder: umt5_xxl_fp8_e4m3fn.safetensors (テキスト理解用)

3. ComfyUIワークフロー徹底解説

動画にあるような「写真から動画を生成(Photo Animate)」する基本的なI2V(Image-to-Video)ワークフローを組みます。

主要ノードの接続

まず、WanVideoModelLoaderノードを配置し、ダウンロードしたcheckpoint(14Bモデル)とT5エンコーダー(umt5)を選択します。ここでロードしたモデル出力を、メインのサンプラーノードに渡します。

次に、元となる写真を読み込むためにLoad Imageノードを使用します。この画像の解像度は、モデルが学習しているアスペクト比(例: 832x480など)に合わせてリサイズしておくとエラーを防げます。

WanVideoTextEncodeノードでは、生成したい動画の内容をテキスト(プロンプト)で指示します。動画内のように「人物が走っている」「カメラに向かって話している」といった具体的な指示を入力し、これをモデルローダーのコンディショニング入力に接続します。

最後に、これらをKSampler(またはWan専用サンプラー)に接続して生成を実行します。生成されたLatentデータはVAE Decodeを通して動画ファイルとして保存されます。

💡 ポイント: 動画内の「Character Swap」を再現するには、単純なI2Vではなく、ControlNet(OpenPoseやDepth)の併用が必要です。Wan対応のControlNetモデルが登場し次第、ワークフローに組み込むことで、入力動画のポーズを維持したまま人物を入れ替えることが可能になります。

4. 動画から学ぶパラメータ調整のコツ

動画内の失敗例(Limitation)は、ComfyUIでの設定において非常に重要なヒントになります。

手や足の破綻を防ぐ

動画では、人物の手が物体と一体化したり、足のトラッキングが外れる例がありました。これを防ぐには、Negative Promptmalformed hands, disappearing limbs, extra fingersなどを強力に入れることが基本です。

一貫性の維持

Wan 2.5の例として紹介された「カメラを落とすシーン」での一貫性の乱れについては、ComfyUIならimg2imgのDenoise強度を下げることで、元画像の特徴をより強く維持できます。0.6〜0.8あたりから調整を始めると良いでしょう。

5. まとめ

Wan 2.1 / 2.2系モデルは、Webツールでも強力ですが、ComfyUIを使うことで「解像度のカスタマイズ」「他のLoRAとの組み合わせ」「詳細なネガティブプロンプト指定」など、自由度が格段に向上します。

ぜひPC1台で、映画級の動画編集ワークフローを構築してみてください。


この記事の自動化に使われた技術と思考法は、
すべて私の講座で「思考OS」としてインストールできます。

ツールを「使う側」から、AIを指揮して「創る側」へ。
あなたも自分だけの自動化システムを構築しませんか?

AI司令官養成ブートキャンプ
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-WAN (WanVideo)
-, , , ,