ComfyUI × WAN 2.2 Animate | 動画の人物を自在に置換するVid2Vid完全ガイド

動画の中身だけを
「別人」に入れ替える魔法

ComfyUIと最新モデル「WAN 2.2 Animate」を使えば、実写動画の人物をアニメキャラクターや美女に高精度で変換可能です。PC1台で実現する、次世代の映像編集フローを構築しましょう🚀

🎥 今回の参考動画はこちら ▼

Table of Contents

1. WAN 2.2 Animateとは？ - Vid2Vidの新基準

AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で注目を集めている「WAN 2.2 Animate（WanVideo系列）」を使用したVideo-to-Video（動画変換）の実装方法を解説します。

動画で紹介されている事例は、車内で話している女性の動画をベースに、動きや構図はそのまま維持しつつ、人物の外見だけをアニメ調や別人の美女に置き換えるというものです。これは従来のスタイル変換とは異なり、非常に高い時間的一貫性（チラつきの少なさ）を持っています💡

特に注目すべきは、14B（140億パラメータ）という巨大なモデルを使用している点です。これにより、物理的な挙動や光の反射などを驚くほどリアルに再現可能ですが、同時にPCスペック（特にVRAM）への要求も高くなっています。

2. 必要な準備（PCスペック・モデル・カスタムノード）

このワークフローを再現するために必要な環境を整えましょう。

推奨スペック

VRAM 24GB以上（RTX 3090/4090推奨）が望ましいです。VRAM 16GB環境でも動作させることは可能ですが、生成解像度やフレーム数を下げる工夫が必要です。

モデルのダウンロード

Hugging FaceからWanVideo関連のモデルを入手します。

Model Repo: Wan-AI/Wan2.1-I2V-14B-480P (またはT2V)
ダウンロード先: ComfyUI/models/diffusion_models/

※動画内の字幕にある「wan2 2」は、最新のWan 2.1系列を指していると考えられます。基本的にはWan 2.1のI2V（Image-to-Video）モデルを使用することで、参照画像の画風を動画に反映させることができます。

カスタムノードのインストール

ComfyUIでWanモデルを扱うためのラッパーノードを導入します。ComfyUI Managerで「Wan」と検索するか、以下のコマンドでComfyUI-WanVideo-Wrapperをインストールしてください。

cd ComfyUI/custom_nodes
git clone https://github.com/KiwiGuild/ComfyUI-WanVideo-Wrapper.git

3. ComfyUIワークフロー徹底解説

動画の「元動画を美化した画像で動かしてます」という解説が、このワークフローの核心です。手順は大きく分けて以下の3ステップです。

Step 1: 参照画像の生成 (Image Gen)

まず、元動画の1フレーム目を抽出し、それをImg2Img（画像生成）で美化・変換します。これが動画全体の「外見の基準」となります。
Load Imageノードで元フレームを読み込み、KSamplerを通して理想のキャラクター画像（After画像）を作成しましょう。

Step 2: Wan Animateによる動画生成 (Vid2Vid)

ここでWan 2.2 Animate（I2Vモデル）の出番です🚀

入力1 (Image): Step 1で作成した「美化後の画像」を接続します。
入力2 (Video/Motion): 元動画をLoad Videoで読み込み、モデルが動きの参照として使えるようにします（I2Vモデルによっては、プロンプトだけで動きを指定する場合もありますが、ControlNet的なアプローチや、Denoise強度を調整したImg2Img動画生成を行うのが一般的です）。
WanVideoCheckpointLoader: ダウンロードした14Bモデルをロードします。
KSampler: denoiseの値を調整します。0.6〜0.8あたりが、元動画の動きを維持しつつ絵柄を変えるスイートスポットです。

Step 3: 高解像度化と背景合成

動画の後半では、生成された640x640の動画を、768x768へアップスケールし、さらに16:9の背景と合成しています。

ImageScaleノードでリサイズした後、ImageCompositeMaskedノードを使用して、横長の背景画像の中央に生成した動画を配置します。これにより、映画のようなワイドスクリーンの映像に仕上げています✅

4. 画質と整合性を高める調整のコツ

1. Denoise強度の微調整:
値が低すぎると元動画の顔が残ってしまい、高すぎると動きが破綻します。0.05刻みでテストすることをお勧めします。

2. プロンプトの具体性:
Wanモデルはプロンプトの理解度が高いです。「car interior, leather seat, sunlight」のように、背景や環境光を具体的に記述することで、合成時の違和感を減らせます。

3. VAEの選択:
Wan専用のVideo VAEを使用してください。通常のSDXL用VAEなどを使うと、色が崩れる原因になります。

5. まとめ

Wan 2.2 Animateを用いたVid2Vidは、単なるフィルター加工を超え、動画の中の現実を書き換えるレベルの品質に達しています。

VRAMの壁は高いですが、それに見合うだけの価値がある技術です。ぜひこのワークフローをマスターして、あなたのクリエイティブの幅を広げてみてください。ComfyUIの沼でお待ちしています👍

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。