【ComfyUI】WAN 2.2 (2.1) Animate徹底解説｜静止画を動画へ＆人物置換ワークフロー

ComfyUI × 最新動画生成

WAN 2.2 Animateで
静止画に「命」を吹き込む

1枚の画像と参照動画があれば、ダンスも演技も自由自在。Alibaba発の最新モデル「WAN」の実力を、ローカル環境で引き出すための完全ガイドです。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. WAN 2.2 (WanVideo) Animateとは？

こんにちは、OKIHIROです。今回は、動画生成AI界隈で大きな注目を集めているAlibaba Tongyi Lab発のモデル、通称「WAN 2.2 Animate（ベースモデルはWan 2.1/WanVideo）」について解説します。

この技術の最大の特徴は、「たった1枚の人物画像」と「動きの参照用動画（Reference Video）」を組み合わせることで、画像の人物に動画と同じ動きをさせることができる点です。動画内ではHugging Face Space上のデモアプリが紹介されていますが、本記事ではこれをComfyUIを用いてローカル環境でより高度に制御する方法に焦点を当てます。

主な特徴は以下の通りです。

Holistic Replication: 表情や細かな仕草まで自然に再現。
Image-to-Video (I2V): 静止画を開始フレームとして動画を生成。
高い一貫性: 従来のモデルに比べ、キャラクターの破綻が少ない。

2. 必要な準備（モデル・カスタムノード）

ComfyUIでWANモデルを動かすための環境を整えましょう。VRAMは最低でも16GB以上、快適に動作させるには24GBが推奨されます。

推奨カスタムノード

現在、最も安定して動作するのはKijai氏が開発しているラッパーノードです。ComfyUI Managerで以下を検索してインストールしてください。

ノード名: ComfyUI-WanVideo-Wrapper
開発者: Kijai
インストール方法: Managerで「WanVideo」と検索し、Installボタンをクリックして再起動。

モデルのダウンロード

モデルファイルはHugging Faceからダウンロードし、所定のフォルダに配置します。

ダウンロード先: Hugging Face上の Wan-AI/Wan2.1-I2V-14B-480P (軽量版) または Wan-AI/Wan2.1-I2V-14B-720P
配置場所: ComfyUI/models/diffusion_models フォルダ内
VAE: 同リポジトリ内の Wan2.1_VAE.pth をダウンロードし、ComfyUI/models/vae に配置。
Text Encoder: umt5-xxl-enc-bf16.safetensors が必要です。ComfyUI/models/text_encoders に配置します。

3. ComfyUIワークフロー徹底解説

それでは、実際に動画を生成するためのワークフローを解説します。ここでは基本となるImage-to-Video (I2V) の構築手順を紹介します。

基本のノード構成

まず、以下の主要ノードを配置し、接続していきます。

WanVideoCheckpointLoader: ダウンロードしたモデルとVAEを読み込みます。モデル名はWan2.1-I2V-14B-480P.safetensorsを選択します。
Load Image: 動かしたいキャラクターの静止画を読み込みます。これが動画の1フレーム目になります。
WanVideoTextEncoder: プロンプトを入力します。「a girl smiling, high quality」のように、画像の状況を補足するテキストを入力します。
WanVideoSampler: 生成の中核となるノードです。
・modelピンにCheckpointLoaderの出力を接続。
・positiveピンにTextEncoderの出力を接続。
・imageピンにLoad Imageの出力を接続（ここが重要です💡）。
VideoDecode: 生成された潜在空間（Latent）のデータを動画に変換します。vaeピンにはCheckpointLoaderからのVAEを接続します。

参照動画の動きをコピーするには？

動画内で紹介されている「動きのコピー（Moveモード）」をComfyUIで再現するには、現時点ではControlNetやIPAdapterのような追加制御が必要です。

しかし、WanVideoのI2V機能だけでも、プロンプトで動きを指定することで（例：「dancing」「waving hand」）、静止画を自然に動かすことが可能です。より厳密に動画の動きをトレースさせたい場合は、Load Videoノードで動画を読み込み、それをVid2Vid（動画から動画への変換）の入力として使いつつ、Denoise強度を調整するアプローチが有効です。

4. 重要パラメータ調整のコツ

高品質な動画を生成するためのパラメータ設定のポイントです。

Steps（ステップ数）

通常は20〜30程度で十分な品質が得られます。数値を上げすぎると生成時間が長くなるだけでなく、逆に細部が崩れることもあります。

CFG Scale

プロンプトの従順さを決めます。WANモデルの場合、5.0〜7.0あたりが安定します。

Shift Parameters

動画の動きの大きさや変化量に影響します。動きが少なすぎる場合は、Samplerノード内のshift関連の値を少し上げてみてください。

5. まとめ

Wan 2.2 (2.1) Animateは、静止画一枚から驚くほどリアルな動画を生成できる強力なツールです。Web上のデモも手軽で素晴らしいですが、ComfyUIを使えば解像度や尺、プロンプトによる微調整など、クリエイティブの幅が無限に広がります。

ぜひ皆さんも、手持ちの画像を使って、キャラクターに新しい「命」を吹き込んでみてください。ComfyUIの自由度の高さを活かして、独自の表現を探求しましょう🚀

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。