「別人」に入れ替える魔法
最新オープンソースモデル「Wan 2.2 Animate」の衝撃。PC1台で実写動画の動きをキャラクターに転写する、次世代Video-to-Videoワークフローを完全解説します。
ワークフローを見る 🚀🎥 今回の参考動画はこちら ▼
1. Wan 2.2 Animateとは? - 動画生成の民主化
AI動画生成の世界に、新たな衝撃が走りました。Alibaba CloudのWanチームが開発したオープンソースモデル、Wan 2.2の登場です。
これまで動画の「スタイル変換」や「キャラクター置換(Video-to-Video)」は、SoraやGen-3のようなクローズドな有料サービス、あるいは高度なプログラミング知識が必要な領域でした。
しかし、Wan 2.2は違います。720p/24fpsの高画質生成を、なんとコンシューマー向けのGPU(RTX 4090等)で実現可能にしました。
本記事では、このWan 2.2をComfyUIで動かし、「既存の動画の動き(モーション)を維持したまま、被写体を全く別のキャラクター(画像)に入れ替える」という魔法のようなワークフローを解説します。
これは単なるフィルターではありません。骨格検知(Pose Estimation)と最新のAIモデルを組み合わせた、いわば「AI版モーションキャプチャ」です。
2. 必要な準備(PCスペック・モデル・カスタムノード)
実装に入る前に、環境を整えましょう。VRAMは推奨24GBですが、軽量化設定を行えば16GB等の環境でも動作する可能性があります。
必須カスタムノードのインストール
今回は、ComfyUI界の重要人物であるKijai氏が開発したラッパーノードを使用します。ComfyUI Managerを使うのが最も簡単です。
- ComfyUI-WanVideoWrapper (by Kijai)
- ComfyUI-Model-Manager (モデル管理用推奨)
- ComfyUI_ControlNet_Aux (DWPose用)
Managerを使わない場合は、custom_nodesフォルダで以下のコマンドを実行してください。
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
モデルのダウンロードと配置
モデルファイルはHugging Faceからダウンロードします。ComfyUI/models/以下の適切なフォルダに配置してください。
1. Diffusion Model (本体)
Hugging FaceのKijai/WanVideo_comfyなどから、FP8等の軽量化版を入手することをお勧めします。
配置先: models/diffusion_models/
ファイル例: Wan2.2-I2V-A14B.safetensors
2. VAE & Text Encoder
配置先: models/vae/ および models/text_encoders/
※umt5-xxlなどのテキストエンコーダーが必要です。
3. LoRA (重要)
動画変換の品質を高めるLightX_2VなどのLoRAファイルも必要になる場合があります。
配置先: models/loras/
3. ComfyUIワークフロー徹底解説
ここからが本番です。動画で紹介されているワークフローは、大きく分けて「入力(映像・画像)」「解析(ポーズ抽出)」「生成(Wan 2.2)」の3パートで構成されています。
今回は、動画の後半で解説されている「Video-to-Video (Pose Transfer)」に焦点を当てます。
Step 1: 映像とリファレンスの読み込み
まず、動きの元となる動画(Driving Video)と、登場させたいキャラクターの画像(Reference Image)を読み込みます。
- Load Video Node: 元動画を読み込みます。
frame_load_capでフレーム数を制限(例: 45フレーム)して、テスト生成することをお勧めします。 - Load Image Node: キャラクターの画像を読み込みます。
💡ポイント: 元動画とリファレンス画像のアスペクト比や構図をなるべく合わせると、成功率が格段に上がります。
Step 2: 骨格情報の抽出 (DWPose)
元動画から「動き」だけを取り出すために、DWPose Estimatorを使用します。
動画内の人物の手足、顔の向きなどの情報を検出し、それをWan 2.2が理解できる形式(Pose Embeds)に変換します。これにより、AIは「元の映像がどんな動きをしているか」を正確に把握できます。
Step 3: Wan 2.2 Animate Embedsの設定
ここがワークフローの核となるWanVideo Animate Embedsノードです。以下の要素を接続します。
- reference_image: キャラクター画像を接続。
- pose_images: Step 2で抽出したポーズ映像を接続。
- face_tracking: (オプション) 顔の表情をより詳細に追跡したい場合に有効にします。
また、ここでテキストプロンプトも入力します。GeminiなどのLLMを使って、リファレンス画像を詳細に言語化したプロンプトを用意すると、生成精度が向上します。
Step 4: 生成と書き出し (Sampler & Video Combine)
最後にWanVideo Samplerで動画を生成します。設定値はデフォルトでも動作しますが、画質と速度のバランスを見ながら調整してください。
4. 調整のコツ:長尺動画と「服の揺れ」
Wan 2.2の真骨頂は、物理演算のようなリアリティです。
Context Optionsで長尺生成
デフォルトでは短い秒数しか生成できませんが、Context Optionsノードを使用することで、77フレームを超える長い動画も生成可能です。
Context Overlap(フレームの重なり)を適切に設定することで、つなぎ目のない滑らかな長尺動画が作れます。
意図しない要素の混入を防ぐ
元動画とリファレンス画像の体型が大きく異なると、骨格がおかしくなることがあります。Pose Strengthパラメータを調整するか、プロンプトで補正を試みてください。
動画でも紹介されていましたが、Wan 2.2は「服の揺れ」や「風になびく髪」などの表現が驚くほどリアルです。あえて動きのある衣装のキャラクターを選ぶのも面白いでしょう。
5. まとめ
Wan 2.2 Animateは、オープンソース動画生成AIの到達点の一つと言えます。
これまで専門的なスタジオでしかできなかったような「実写合成」や「バーチャルヒューマン動画」が、自宅のPCで、しかもComfyUIという柔軟なツール上で実現できるのです。
ぜひ、あなたのお気に入りのキャラクター画像を、あなた自身の動きで命を吹き込んでみてください。
