ComfyUI WAN 2.2 Animate: Start & End Frame人物置換ワークフロー完全ガイド

2025 Latest Workflow

WAN 2.2 Animate
Start & End Frame Control

開始画像と終了画像を指定するだけで、AIが「間の動き」を完璧に補完。人物置換やループ動画生成の決定版。

14B ModelHigh Quality

FP8VRAM Optimization

WrapperKijai Nodes

🎥 今回の参考動画はこちら ▼

Table of Contents

1. WAN 2.2 Animateとは？ - 動画生成の新たな標準

本記事では、Alibaba Cloud発の高性能動画生成モデル「Wan」シリーズ（Wan 2.1 / 2.2）を使用した、Start & End Frame（開始・終了フレーム指定）ワークフローを解説します。

従来の動画生成（Image to Video）は、最初の1枚の画像から動きを予測するだけでした。しかし、このワークフローでは「動画の終わり方」まで指定できます。

例えば、「振り返ってこちらを見る」といった具体的な演技指導や、「異なる服装へのモーフィング」が可能になります。

今回は、ComfyUIのカスタムノード界の重鎮、Kijai氏が開発した ComfyUI-WanVideoWrapper を使用し、VRAM消費を抑えつつ高品質な生成を行う手法を実装します。

2. 必要な準備（PCスペック・モデル・カスタムノード）

このワークフローを動かすには、以下の環境とモデルが必要です。

必須カスタムノード

ComfyUI Managerから以下をインストールしてください。

ComfyUI-WanVideoWrapper (by Kijai)
ComfyUI-VideoHelperSuite (動画結合用)
ComfyUI-Impact-Pack (フレーム処理用)

必要なモデルファイル

Hugging Face（Wan-AI/Wan2.1-I2V-14B-480Pなど）から以下をダウンロードし、ComfyUI/models/ 以下の指定フォルダに配置します。

Diffusion Model (unet): wan2.1_i2v_480p_14B_fp8.safetensors
※ models/diffusion_models フォルダへ。480p版の方が高速でおすすめです。
VAE: wan_2.1_vae.safetensors
※ models/vae フォルダへ。
Text Encoder: umt5_xxl_fp8_e4m3fn_scaled.safetensors
※ models/text_encoders フォルダへ。
Clip Vision: clip_vision_h.safetensors
※ models/clip_vision フォルダへ。

3. ComfyUIワークフロー徹底解説

それでは、実際のノード構成を左から順に構築していきましょう。

Step 1: モデルローダーと基本設定

まず、ワークフローの心臓部です。WanVideoModelLoader ノードを使用します。

Model: 先ほどダウンロードした wan2.1_i2v... を選択。
Precision: fp8_e4m3fn を選択（VRAM節約と高速化のため）。
Cache Device: cpu (VRAMが少ない場合) または cuda。

💡 OKIHIRO's Point:
もしTritonがインストールされている環境（Linuxなど）であれば、TorchCompile Settings ノードを接続して有効化すると、生成速度がさらに向上します。

Step 2: プロンプトとConditioning

動画の内容を指示します。このワークフローの肝は、Positive Promptで「トランジション（変化）」を記述することです。

Positive Prompt: 「赤い服を着た女性が路地を歩き、振り返って微笑む」のように、開始から終了までの動きを具体的に書きます。
Start / End Frame: Load Image ノードを2つ用意し、開始画像と終了画像を読み込みます。
※ 重要: 2枚の画像は同じアスペクト比（例: 縦長なら両方縦長）である必要があります。

Step 3: Wan Video Wrapperの設定

WanVideoClipVisionEncode ノードで、画像情報をモデルに渡します。

Start Image: 開始画像を接続。
End Image: 終了画像を接続。

さらに、WanVideoSampler ノードで生成パラメータを設定します。

Steps: 25〜30程度で十分な品質が出ます。
CFG: 動画モデル特有の挙動があるため、デフォルト値（多くの場合6.0〜7.0付近）から調整してください。

Step 4: 最適化 (TeaCache & SLG)

生成時間を短縮するための重要な設定です。

TeaCache: キャッシュを活用して計算を省略します。threshold は 0.5 程度がバランスが良いです。
Skip Layer Guidance (SLG): ノードを追加し、block_start と block_end を設定します。動画内の推奨設定は 7, 9, 10 のブロックを指定することです。

4. Start/End Frame調整のコツ

最初の6フレーム問題の解決

Wanモデルは、生成の仕様上、最初の数フレーム（0〜5フレーム目）が静止画のようになったり、崩れたりする傾向があります。

これを回避するため、動画の最後に「トリミング処理」を加えます。

Image Slice (Impact Pack等): 生成された画像バッチから、先頭の6枚を削除（Start index: 6）してから、動画結合ノード（Video Combine）に渡します。

アップスケーリング設定

生成解像度は480pや720pですが、最終出力は高品質にしたいですよね。

Upscale Model Loader でモデル（RealESRGANなど）を読み込み、Upscale Factorは「2」 に留めておくのが無難です。3倍や4倍にすると、処理時間が指数関数的に伸びてしまいます。

5. まとめ

今回のワークフローを使えば、単なる動画生成ではなく、「演出意図を持ったシーン転換」が可能になります。

重要なポイントのおさらい：

モデルは Wan 2.1/2.2 14B (480p/FP8) を使用して軽量化。
Start & End Frame で動画の始点と終点を完全制御。
SLG (Skip Layer Guidance) と TeaCache で生成速度をブースト。
最初の数フレームはトリミングして品質を担保。

ぜひこのワークフローで、あなたのAI映像制作を次のレベルへ引き上げてください🚀

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。