Wan 2.2 Animateで
「自分」を再構築する。
🎥 今回の参考動画はこちら ▼
1. Wan 2.2 Animateとは? - 従来の動画変換との違い
AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で話題沸騰中のWan 2.2 Animate(WanVideo)をComfyUIで動かす方法を解説します。
従来の「Video to Video」は、動画全体にフィルターをかけるような変換が主流でした。しかし、今回紹介するWan 2.2 Animateのアプローチは根本的に異なります。これは「被写体の完全な置換」に特化した技術です。
具体的には、動画内の人物だけをマスクで切り抜き、その動き(モーション)と光の当たり具合(ライティング)を維持したまま、全く別のキャラクター(ロボットやアニメキャラなど)として再生成します。背景は実写のまま、人物だけを違和感なく3DCG風にするような高度な編集が可能になります。
2. 必要な準備(カスタムノードとモデル)
このワークフローを動かすには、いくつかの準備が必要です。ComfyUIの環境構築が済んでいる前提で、必要なコンポーネントを導入していきましょう。
必須カスタムノード: ComfyUI-WanVideoWrapper
まずは、WanVideoモデルをComfyUIで扱うためのラッパーノードをインストールします。以下のリポジトリを使用します。
- リポジトリ名:
ComfyUI-WanVideoWrapper - 開発者: Kijai氏
- インストール方法: ComfyUIの
custom_nodesフォルダ内でgit cloneするか、ComfyUI Managerで「WanVideoWrapper」と検索してインストールしてください。
【重要】依存関係のインストール
インストール後、必ずターミナルで custom_nodes/ComfyUI-WanVideoWrapper フォルダに移動し、以下のコマンドを実行してPythonの依存ライブラリを入れてください。これを忘れるとエラーになります。
pip install -r requirements.txt
モデルのダウンロード
次に、推論に使用するモデルファイルを入手します。動画内ではFP8(8ビット浮動小数点)版を使用してVRAM使用量を抑えています。Hugging FaceのKijai氏のリポジトリなどから以下のファイルをダウンロードし、ComfyUIの models/diffusion_models(または指定のフォルダ)に配置してください。
- モデル名:
Wan2_1-T2V-14B_fp8_e4m3fn.safetensors(または動画内で示されているWan2.2表記のもの) - 推奨VRAM: 16GB以上(FP8版使用時)
3. ComfyUIワークフロー徹底解説
それでは、実際のワークフロー構築に入りましょう。基本的には ComfyUI-WanVideoWrapper のExampleフォルダに含まれている wanvideo_Wan2_Animate_example_01.json をベースに進めます。
STEP 1: 参照画像と参照動画の読み込み
まず、変換の「ゴール」となる画像と「動きの元」となる動画を用意します。
- Reference Image (参照画像): 生成したいキャラクターの画像です。今回は「未来的なロボット」の画像をロードします。
- Reference Video (参照動画): 動きをトレースしたい元の動画です。ここでは「地図を見ている人物」の動画を使用します。
STEP 2: Segment Anything (SAM2) によるマスキング
ここがこのワークフローの肝です。動画全体を変換するのではなく、人物だけを切り抜くためにSAM2(Segment Anything Model 2)を使用します。
ワークフロー内の Point Editor ノードを使って、インタラクティブにマスク領域を指定します。
- 緑のドット (Shift + 左クリック): マスクに含める領域(人物の体、手など)を指定します。
- 赤のドット (Shift + 右クリック): マスクから除外する領域を指定します。
これにより、AIに対して「この黒いシルエットの部分だけを、参照画像のロボットに書き換えてください」と指示を出すことができます。
STEP 3: DWPoseとFace Imagesによる特徴抽出
単に形を合わせるだけでなく、顔の向きや手足のポーズを正確に反映させるために、以下の処理を行います。
- DWPose Estimator: 動画から人物の骨格(ポーズ)情報を抽出します。これにより、ロボットが元動画と同じポーズを取るようになります。
- Face Images: 元動画から顔部分をクロップし、表情のニュアンスをAIに伝えます。
これらの情報はすべて WanVideo Animate Embeds という巨大なノードに集約されます。このノードが、画像・動画・マスク・ポーズ情報を統合する司令塔の役割を果たします。
STEP 4: 生成設定と実行
最後に WanVideo Sampler ノードで生成を実行します。ここで重要なのが frame_window_size(フレームウィンドウサイズ)の設定です。
動画全体を一気に生成しようとすると、膨大なVRAMが必要になりPCがクラッシュします。そこで、動画を短い区切り(バッチ)に分けて処理させます。
- 設定例:
frame_window_sizeを「77」や「81」などに設定します。
こうすることで、例えば500フレームある動画でも、77フレームずつ順番に処理され、最終的に1本の動画として結合されます。家庭用のGPUでも長編動画の変換が可能になる重要なテクニックです。
4. クオリティアップのコツ
さらにクオリティを上げるためのTipsをいくつか紹介します。
1. マスク領域の拡張 (Grow Mask)
SAM2で作成したマスクは、被写体にピッタリすぎることがあります。Grow Mask ノードを使ってマスクを少し広げる(Expand)ことで、生成されたキャラクターと背景の境界線が自然になります。
2. LoRAの活用
特定のキャラクターや画風に固定したい場合は、WanVideo Lora Select ノードを追加して、対応するLoRAモデルを接続してください。モデルの表現力が向上し、一貫性が増します。
3. 表情だけの転送
全身を置換するのではなく、背景や服装はそのままで「顔の表情だけ」を別のアニメキャラに変えることも可能です。その場合はマスクの範囲を顔だけに限定し、Reference Imageにアニメ顔のアップ画像を使用します。
5. まとめ
Wan 2.2 Animateを使えば、実写動画のリアリティとAIの創造性を組み合わせた、全く新しい映像表現が可能になります。
これまでは専門のVFXスタジオでしか作れなかったような映像が、ComfyUIを使えば個人のPCで生成できる時代になりました。ぜひこのワークフローを試して、あなただけの「変身動画」を作ってみてください。
