動画生成の常識が変わる
Web版で話題の「人物置換」や「写真アニメーション」。
その裏側にある強力なWanモデルを、
あなたのPCで自在に操るための
技術ガイドです。
🎥 今回の参考動画はこちら ▼
1. Wan 2.2 / 2.5 Animateとは? - 動画生成の新たな地平
こんにちは、OKIHIROです。今回の動画で紹介されている「Wan 2.2 Animate」および「Wan 2.5」は、Alibaba Cloud発の最新動画生成モデルファミリーです。
動画内では、主に以下の2つの衝撃的な機能が紹介されています。
- Character Swap (Avatar): 自分の演技動画に、他人の写真を適用して動きを同期させる「人物置換」技術。
- Photo Animate: 1枚の写真に動き(動画)のモーションを適用し、まるでその人が演技しているかのような動画を生成する技術。
これらはWeb版ツールとしての紹介ですが、そのコア技術である「Wan 2.1」モデルはComfyUIでも利用可能です。本記事では、この強力な表現力をローカル環境で再現する方法を解説します。
2. 必要な準備(PCスペック・モデル・カスタムノード)
ComfyUIでWanモデルを動かすには、以下の準備が必要です。
推奨スペック
VRAM 16GB以上推奨(最低12GB)。Wanモデル(特に14B版)は非常に高画質ですが、その分リソースを消費します。
必須カスタムノード
開発者Kijai氏によるラッパーノードが最も使いやすく安定しています。
- Node:
ComfyUI-WanVideoWrapper - Install: ComfyUI Managerで「WanVideoWrapper」と検索してインストール、または
custom_nodesフォルダでgit clone https://github.com/kijai/ComfyUI-WanVideoWrapper.gitを実行。
モデルのダウンロード
Hugging Faceからモデルをダウンロードし、ComfyUI/models/diffusion_models(または指定のフォルダ)に配置します。
- Model:
Wan-AI/Wan2.1-I2V-14B-480P(Image-to-Video用) - Text Encoder:
umt5_xxl_fp8_e4m3fn.safetensors(テキスト理解用)
3. ComfyUIワークフロー徹底解説
動画にあるような「写真から動画を生成(Photo Animate)」する基本的なI2V(Image-to-Video)ワークフローを組みます。
主要ノードの接続
まず、WanVideoModelLoaderノードを配置し、ダウンロードしたcheckpoint(14Bモデル)とT5エンコーダー(umt5)を選択します。ここでロードしたモデル出力を、メインのサンプラーノードに渡します。
次に、元となる写真を読み込むためにLoad Imageノードを使用します。この画像の解像度は、モデルが学習しているアスペクト比(例: 832x480など)に合わせてリサイズしておくとエラーを防げます。
WanVideoTextEncodeノードでは、生成したい動画の内容をテキスト(プロンプト)で指示します。動画内のように「人物が走っている」「カメラに向かって話している」といった具体的な指示を入力し、これをモデルローダーのコンディショニング入力に接続します。
最後に、これらをKSampler(またはWan専用サンプラー)に接続して生成を実行します。生成されたLatentデータはVAE Decodeを通して動画ファイルとして保存されます。
💡 ポイント: 動画内の「Character Swap」を再現するには、単純なI2Vではなく、ControlNet(OpenPoseやDepth)の併用が必要です。Wan対応のControlNetモデルが登場し次第、ワークフローに組み込むことで、入力動画のポーズを維持したまま人物を入れ替えることが可能になります。
4. 動画から学ぶパラメータ調整のコツ
動画内の失敗例(Limitation)は、ComfyUIでの設定において非常に重要なヒントになります。
手や足の破綻を防ぐ
動画では、人物の手が物体と一体化したり、足のトラッキングが外れる例がありました。これを防ぐには、Negative Promptにmalformed hands, disappearing limbs, extra fingersなどを強力に入れることが基本です。
一貫性の維持
Wan 2.5の例として紹介された「カメラを落とすシーン」での一貫性の乱れについては、ComfyUIならimg2imgのDenoise強度を下げることで、元画像の特徴をより強く維持できます。0.6〜0.8あたりから調整を始めると良いでしょう。
5. まとめ
Wan 2.1 / 2.2系モデルは、Webツールでも強力ですが、ComfyUIを使うことで「解像度のカスタマイズ」「他のLoRAとの組み合わせ」「詳細なネガティブプロンプト指定」など、自由度が格段に向上します。
ぜひPC1台で、映画級の動画編集ワークフローを構築してみてください。
