青と紫の光で構成された未来的なニューラルネットワークが、2つの異なる映像フレームを接続しているデジタルアート。

AI動画生成

ComfyUI WAN 2.2 Animate: Start & End Frame人物置換ワークフロー完全ガイド

広告

2025 Latest Workflow
WAN 2.2 Animate
Start & End Frame Control

開始画像と終了画像を指定するだけで、AIが「間の動き」を完璧に補完。人物置換やループ動画生成の決定版。

14B ModelHigh Quality
FP8VRAM Optimization
WrapperKijai Nodes

🎥 今回の参考動画はこちら



1. WAN 2.2 Animateとは? - 動画生成の新たな標準

本記事では、Alibaba Cloud発の高性能動画生成モデル「Wan」シリーズ(Wan 2.1 / 2.2)を使用した、Start & End Frame(開始・終了フレーム指定)ワークフローを解説します。

従来の動画生成(Image to Video)は、最初の1枚の画像から動きを予測するだけでした。しかし、このワークフローでは「動画の終わり方」まで指定できます。

例えば、「振り返ってこちらを見る」といった具体的な演技指導や、「異なる服装へのモーフィング」が可能になります。

今回は、ComfyUIのカスタムノード界の重鎮、Kijai氏が開発した ComfyUI-WanVideoWrapper を使用し、VRAM消費を抑えつつ高品質な生成を行う手法を実装します。

2. 必要な準備(PCスペック・モデル・カスタムノード)

このワークフローを動かすには、以下の環境とモデルが必要です。

必須カスタムノード

ComfyUI Managerから以下をインストールしてください。

  • ComfyUI-WanVideoWrapper (by Kijai)
  • ComfyUI-VideoHelperSuite (動画結合用)
  • ComfyUI-Impact-Pack (フレーム処理用)

必要なモデルファイル

Hugging Face(Wan-AI/Wan2.1-I2V-14B-480Pなど)から以下をダウンロードし、ComfyUI/models/ 以下の指定フォルダに配置します。

  • Diffusion Model (unet): wan2.1_i2v_480p_14B_fp8.safetensors
    models/diffusion_models フォルダへ。480p版の方が高速でおすすめです。
  • VAE: wan_2.1_vae.safetensors
    models/vae フォルダへ。
  • Text Encoder: umt5_xxl_fp8_e4m3fn_scaled.safetensors
    models/text_encoders フォルダへ。
  • Clip Vision: clip_vision_h.safetensors
    models/clip_vision フォルダへ。

3. ComfyUIワークフロー徹底解説

それでは、実際のノード構成を左から順に構築していきましょう。

Step 1: モデルローダーと基本設定

まず、ワークフローの心臓部です。WanVideoModelLoader ノードを使用します。

  • Model: 先ほどダウンロードした wan2.1_i2v... を選択。
  • Precision: fp8_e4m3fn を選択(VRAM節約と高速化のため)。
  • Cache Device: cpu (VRAMが少ない場合) または cuda

💡 OKIHIRO's Point:
もしTritonがインストールされている環境(Linuxなど)であれば、TorchCompile Settings ノードを接続して有効化すると、生成速度がさらに向上します。

Step 2: プロンプトとConditioning

動画の内容を指示します。このワークフローの肝は、Positive Promptで「トランジション(変化)」を記述することです。

  • Positive Prompt: 「赤い服を着た女性が路地を歩き、振り返って微笑む」のように、開始から終了までの動きを具体的に書きます。
  • Start / End Frame: Load Image ノードを2つ用意し、開始画像と終了画像を読み込みます。
    重要: 2枚の画像は同じアスペクト比(例: 縦長なら両方縦長)である必要があります。

Step 3: Wan Video Wrapperの設定

WanVideoClipVisionEncode ノードで、画像情報をモデルに渡します。

  • Start Image: 開始画像を接続。
  • End Image: 終了画像を接続。

さらに、WanVideoSampler ノードで生成パラメータを設定します。

  • Steps: 25〜30程度で十分な品質が出ます。
  • CFG: 動画モデル特有の挙動があるため、デフォルト値(多くの場合6.0〜7.0付近)から調整してください。

Step 4: 最適化 (TeaCache & SLG)

生成時間を短縮するための重要な設定です。

  • TeaCache: キャッシュを活用して計算を省略します。threshold は 0.5 程度がバランスが良いです。
  • Skip Layer Guidance (SLG): ノードを追加し、block_startblock_end を設定します。動画内の推奨設定は 7, 9, 10 のブロックを指定することです。

4. Start/End Frame調整のコツ

最初の6フレーム問題の解決

Wanモデルは、生成の仕様上、最初の数フレーム(0〜5フレーム目)が静止画のようになったり、崩れたりする傾向があります。

これを回避するため、動画の最後に「トリミング処理」を加えます。

  • Image Slice (Impact Pack等): 生成された画像バッチから、先頭の6枚を削除(Start index: 6)してから、動画結合ノード(Video Combine)に渡します。

アップスケーリング設定

生成解像度は480pや720pですが、最終出力は高品質にしたいですよね。

Upscale Model Loader でモデル(RealESRGANなど)を読み込み、Upscale Factorは「2」 に留めておくのが無難です。3倍や4倍にすると、処理時間が指数関数的に伸びてしまいます。

5. まとめ

今回のワークフローを使えば、単なる動画生成ではなく、「演出意図を持ったシーン転換」が可能になります。

重要なポイントのおさらい:

  1. モデルは Wan 2.1/2.2 14B (480p/FP8) を使用して軽量化。
  2. Start & End Frame で動画の始点と終点を完全制御。
  3. SLG (Skip Layer Guidance)TeaCache で生成速度をブースト。
  4. 最初の数フレームはトリミングして品質を担保。

ぜひこのワークフローで、あなたのAI映像制作を次のレベルへ引き上げてください🚀


この記事の執筆・コーディング・デプロイは、
PythonとGemini APIで構築された自動化システムが実行しました。

開発工数をゼロにする
「完全自動化パイプライン」の仕組みを公開中。

AIツール宣伝バナー
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-AI動画生成
-, , , ,