【ComfyUI】Wan 2.1で実現する「始点・終点」指定の動画生成！人物置換も自在なキーフレームアニメーション完全ガイド

Wan 2.1 対応

動画生成の制御は
「点」から「線」へ

開始と終了、2つの画像をつなぐだけで
AIが驚くほど滑らかな動画を生成します。
Wan 2.1の真価を引き出す
キーフレーム制御ワークフローを解説。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan 2.1 Animateとは？ - キーフレームアニメーションの革新

AI動画生成の世界に、また一つ強力な選択肢が登場しました。Alibabaが開発した最新モデルWan 2.1は、動画生成における「制御性」を大きく向上させています。特に注目すべきは、今回紹介するキーフレームアニメーション（Keyframe Animation）の能力です。

従来、Image-to-Video（I2V）と言えば「1枚の画像から動きを予測する」ものが主流でした。しかし、Wan 2.1とComfyUIを組み合わせることで、「開始画像（Start Frame）」と「終了画像（End Frame）」の両方を指定し、その間をAIに補完させることが可能になります。

これにより、例えば「服を着る動作」や「別のポーズへの変化」など、始点と終点が決まっている動きを、破綻なくスムーズに生成できるようになります。本記事では、Kijai氏が開発したカスタムノードComfyUI-WanVideo-Wrapperを使用し、この高度な動画生成をPCローカル環境で実現する方法を解説します。

2. 必要な準備（モデル・カスタムノード）

このワークフローを実行するには、以下のカスタムノードとモデルファイルが必要です。ファイルサイズが大きいため、事前にダウンロードしておきましょう。

必須カスタムノード

ComfyUI-WanVideo-Wrapper
Kijai氏によって開発された、WanモデルをComfyUIで扱いやすくするためのラッパーノード群です。ComfyUI Managerで「WanVideoWrapper」と検索してインストールするか、custom_nodesフォルダで以下のコマンドを実行してください。

git clone https://github.com/kijai/ComfyUI-WanVideo-Wrapper.git

必要なモデルファイル

Hugging Faceの各リポジトリからダウンロードし、ComfyUIの指定フォルダに配置します。

Diffusion Model (本体):
Wan2.1-I2V-14B-480P (または720P) のFP16またはGGUF版
配置先: models/diffusion_models/
※VRAM容量に合わせて、FP8版やGGUF版（ComfyUI-GGUFが必要）を選択してください。
Text Encoder:
umt5_xxl_fp8_e4m3fn_scaled.safetensors
配置先: models/text_encoders/
VAE:
wan_2.1_vae.safetensors
配置先: models/vae/
Clip Vision:
clip_vision_h.safetensors
配置先: models/clip_vision/

3. ComfyUIワークフロー徹底解説

ここからは、実際にキーフレームアニメーションを作成するワークフローを構築していきます。Kijai氏のワークフローをベースに、各処理の流れを紐解いていきましょう。

Step 1: モデルのロードと設定

まずはWanVideo Model Loaderノードを使用し、ダウンロードしたモデルを読み込みます。ここで重要なのがBlock Swap（ブロックスワップ）の設定です。

WanVideo BlockSwapノードをモデルローダーに接続することで、VRAM使用量を劇的に削減できます。動画内では、blocks_to_swapを40に設定しています。これにより、モデルの一部をメインメモリに退避させ、VRAM 16GB〜24GBクラスのGPUでも14Bモデルを動作させることが可能になります（ただし、生成速度は低下します）。

Step 2: テキストと画像のエンコード

次に、プロンプトと画像をAIが理解できる形式に変換します。

Text Encode: WanVideo TextEncodeノードを使用し、positive_promptに動画の内容を入力します（例: "A woman with purple energy coming from her hands..."）。
Image Encode: ここがポイントです。2つのLoad Imageノードを用意し、それぞれに「開始画像（Keyframe 1）」と「終了画像（Keyframe 2）」を読み込ませます。

これらをWanVideo ImageToVideo Encodeノード（またはラッパー独自の入力ノード）に接続し、動画の始点と終点として定義します。

Step 3: サンプリングとデコード

WanVideo Samplerで動画を生成し、最後にWanVideo Decode（またはVAE Decode）で動画ファイルとして書き出します。サンプラーの設定は、基本的にはデフォルトでも動作しますが、ステップ数を20〜30程度確保することで品質が安定します。

4. 品質の鍵を握るパラメータ調整

生成される動画のクオリティと速度のバランスを取るために、以下のパラメータを調整してみましょう。

Block Swap (blocks_to_swap)

前述の通り、この値を増やすほどVRAM使用量は減りますが、処理時間は長くなります。RTX 4090などのハイエンドGPUを使用している場合は値を減らす（または0にする）ことで高速化できますが、VRAM不足エラーが出る場合は40まで上げてみてください。

TeaCache (ティーキャッシュ)

WanVideo TeaCacheノードを使用することで、品質を少し犠牲にして生成速度を上げることができます。推奨値は0.1です。画質が低下しすぎると感じた場合は、バイパス（無効化）して品質優先で生成しましょう。

Quantization (量子化)

モデルローダーのquantization設定をFP8にすることで、FP16に比べてVRAM使用量を大幅に抑えられます。画質への影響は軽微なので、基本的にはFP8での運用がおすすめです。

5. まとめ

Wan 2.1とComfyUIを使ったキーフレームアニメーションは、これまでの「運任せ」な動画生成とは一線を画す制御性を持っています。開始と終了を指定できることで、映像制作の現場で使えるレベルのコントロールが可能になりつつあります。

今回の要点は以下の3つです。

Wan 2.1 I2Vは、始点と終点の2枚の画像からその間を補完できる。
Block Swapを活用することで、コンシューマー向けGPUでも14Bモデルが動作する。
キーフレーム画像の一貫性（同じ服装、背景など）が、スムーズな動画生成の鍵となる。

ぜひこのワークフローを試し、あなたのクリエイティビティを新しい次元へと広げてみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。