Start & End Frame Control
開始画像と終了画像を指定するだけで、AIが「間の動き」を完璧に補完。人物置換やループ動画生成の決定版。
🎥 今回の参考動画はこちら ▼
1. WAN 2.2 Animateとは? - 動画生成の新たな標準
本記事では、Alibaba Cloud発の高性能動画生成モデル「Wan」シリーズ(Wan 2.1 / 2.2)を使用した、Start & End Frame(開始・終了フレーム指定)ワークフローを解説します。
従来の動画生成(Image to Video)は、最初の1枚の画像から動きを予測するだけでした。しかし、このワークフローでは「動画の終わり方」まで指定できます。
例えば、「振り返ってこちらを見る」といった具体的な演技指導や、「異なる服装へのモーフィング」が可能になります。
今回は、ComfyUIのカスタムノード界の重鎮、Kijai氏が開発した ComfyUI-WanVideoWrapper を使用し、VRAM消費を抑えつつ高品質な生成を行う手法を実装します。
2. 必要な準備(PCスペック・モデル・カスタムノード)
このワークフローを動かすには、以下の環境とモデルが必要です。
必須カスタムノード
ComfyUI Managerから以下をインストールしてください。
- ComfyUI-WanVideoWrapper (by Kijai)
- ComfyUI-VideoHelperSuite (動画結合用)
- ComfyUI-Impact-Pack (フレーム処理用)
必要なモデルファイル
Hugging Face(Wan-AI/Wan2.1-I2V-14B-480Pなど)から以下をダウンロードし、ComfyUI/models/ 以下の指定フォルダに配置します。
- Diffusion Model (unet):
wan2.1_i2v_480p_14B_fp8.safetensors
※models/diffusion_modelsフォルダへ。480p版の方が高速でおすすめです。 - VAE:
wan_2.1_vae.safetensors
※models/vaeフォルダへ。 - Text Encoder:
umt5_xxl_fp8_e4m3fn_scaled.safetensors
※models/text_encodersフォルダへ。 - Clip Vision:
clip_vision_h.safetensors
※models/clip_visionフォルダへ。
3. ComfyUIワークフロー徹底解説
それでは、実際のノード構成を左から順に構築していきましょう。
Step 1: モデルローダーと基本設定
まず、ワークフローの心臓部です。WanVideoModelLoader ノードを使用します。
- Model: 先ほどダウンロードした
wan2.1_i2v...を選択。 - Precision:
fp8_e4m3fnを選択(VRAM節約と高速化のため)。 - Cache Device:
cpu(VRAMが少ない場合) またはcuda。
💡 OKIHIRO's Point:
もしTritonがインストールされている環境(Linuxなど)であれば、TorchCompile Settings ノードを接続して有効化すると、生成速度がさらに向上します。
Step 2: プロンプトとConditioning
動画の内容を指示します。このワークフローの肝は、Positive Promptで「トランジション(変化)」を記述することです。
- Positive Prompt: 「赤い服を着た女性が路地を歩き、振り返って微笑む」のように、開始から終了までの動きを具体的に書きます。
- Start / End Frame:
Load Imageノードを2つ用意し、開始画像と終了画像を読み込みます。
※ 重要: 2枚の画像は同じアスペクト比(例: 縦長なら両方縦長)である必要があります。
Step 3: Wan Video Wrapperの設定
WanVideoClipVisionEncode ノードで、画像情報をモデルに渡します。
- Start Image: 開始画像を接続。
- End Image: 終了画像を接続。
さらに、WanVideoSampler ノードで生成パラメータを設定します。
- Steps: 25〜30程度で十分な品質が出ます。
- CFG: 動画モデル特有の挙動があるため、デフォルト値(多くの場合6.0〜7.0付近)から調整してください。
Step 4: 最適化 (TeaCache & SLG)
生成時間を短縮するための重要な設定です。
- TeaCache: キャッシュを活用して計算を省略します。
thresholdは 0.5 程度がバランスが良いです。 - Skip Layer Guidance (SLG): ノードを追加し、
block_startとblock_endを設定します。動画内の推奨設定は 7, 9, 10 のブロックを指定することです。
4. Start/End Frame調整のコツ
最初の6フレーム問題の解決
Wanモデルは、生成の仕様上、最初の数フレーム(0〜5フレーム目)が静止画のようになったり、崩れたりする傾向があります。
これを回避するため、動画の最後に「トリミング処理」を加えます。
- Image Slice (Impact Pack等): 生成された画像バッチから、先頭の6枚を削除(Start index: 6)してから、動画結合ノード(Video Combine)に渡します。
アップスケーリング設定
生成解像度は480pや720pですが、最終出力は高品質にしたいですよね。
Upscale Model Loader でモデル(RealESRGANなど)を読み込み、Upscale Factorは「2」 に留めておくのが無難です。3倍や4倍にすると、処理時間が指数関数的に伸びてしまいます。
5. まとめ
今回のワークフローを使えば、単なる動画生成ではなく、「演出意図を持ったシーン転換」が可能になります。
重要なポイントのおさらい:
- モデルは Wan 2.1/2.2 14B (480p/FP8) を使用して軽量化。
- Start & End Frame で動画の始点と終点を完全制御。
- SLG (Skip Layer Guidance) と TeaCache で生成速度をブースト。
- 最初の数フレームはトリミングして品質を担保。
ぜひこのワークフローで、あなたのAI映像制作を次のレベルへ引き上げてください🚀
