ComfyUI × Wan 2.2 Animate徹底解説！開始・終了フレーム指定で高品質動画を生成する方法

Latest AI Workflow

ComfyUI × Wan 2.2で静止画が動き出す

開始と終了の画像を指定するだけ。間の動きをAIが完全補完する、魔法のような動画生成プロセスを体験しましょう。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan 2.2 Animateとは？ - できることの要約

こんにちは、AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で大きな話題となっているAlibaba Cloud発のモデル「Wan 2.2」（Wan 2.1系列）を、ComfyUIで動かす方法を解説します。

このモデルの最大の特徴は、動画の「開始フレーム」と「終了フレーム」を指定することで、その間の動き（中割り）をAIが高品質に生成してくれる点です。従来のアニメーション制作では膨大な手間がかかっていた「中割り」作業を、AIが肩代わりしてくれると考えると、その凄さが伝わるでしょうか。

しかも、これらの環境構築はすべて無料で、ローカルPC上で完結します。インターネット接続はモデルのダウンロード時のみ。セキュリティやプライバシーを気にする開発者にとっても安心の設計ですね。

2. 必要な準備（PCスペック・モデル・カスタムノード）

まず、実行環境を整えましょう。今回のワークフローはVRAMを多く消費するため、NVIDIA製のGPU（推奨12GB以上、快適に動かすなら16GB以上）を搭載したPCが必要です。

ComfyUIのアップデート

本記事のワークフローを使用するには、ComfyUIのバージョン 0.3.48 以上が必要です。古いバージョンの場合は、必ずアップデートを行ってください。

必要なモデルのダウンロード

ComfyUI Managerを使用している場合、ワークフローを読み込んだ際に不足しているモデルがあれば「Install Missing Custom Nodes」で検出できる場合もありますが、基本的にはHugging Face等から以下のモデルを手動、またはManager経由でダウンロードする必要があります。

Wan 2.1 T2V/I2V Models (14B または 5B): 14Bは高品質ですが非常に重く（生成に数時間）、5Bは軽量で高速（30分程度）です。自分のGPU性能に合わせて選択してください。
Flux Models: キャラクター生成用に使用します。
Text Encoders: umt5_xxl_fp8_e4m3fn_scaled.safetensors などが必要になります。

3. ComfyUIワークフロー徹底解説

今回のワークフローは大きく3つのステップに分かれています。それぞれの役割と接続のポイントを見ていきましょう。

Step 1: Flux Krea Devでベース画像生成

まずは動画の主役となるキャラクターを生成します。ここでは画像生成AI「Flux」を使用し、高品質な静止画を作成します。

この工程でのポイントは、単に画像を生成するだけでなく、後の工程で「ポーズ違い」を作るためのベースとなるシード値やプロンプトを確定させることです。生成された画像は、一度PCに保存しておきましょう。

Step 2: Flux Contextでキーフレーム作成

次に、アニメーションの「開始（Start）」と「終了（End）」となる2枚の画像を用意します。ここで活躍するのがFlux Contextワークフローです。

通常の生成では、プロンプトを変えるとキャラクターの顔や服装まで変わってしまいますが、Context機能を使うことで、キャラクターの一貫性を保ったままポーズだけを変更できます。例えば、「銃を構えているポーズ（開始）」と「銃を振り上げたポーズ（終了）」の2枚を生成します。変化が大きすぎるとAIが間の動きを補完しきれないため、自然に繋がる範囲の動きにするのがコツです。

Step 3: Wan 2.2 First-Last Frame to Video

ここが本記事の核心です。用意した2枚の画像を動画化します。

ComfyUIのテンプレート機能から「Wan 2.2 14B First-Last Frame to Video」を選択（または同様のワークフローを構築）します。

具体的な接続手順は以下の通りです。

Load Image ノードを2つ用意し、それぞれにStep 2で作成した「開始画像」と「終了画像」を読み込ませます。
それぞれの画像出力を、Wan用のノード（WanFirstLastFrameToVideo やそれに類するカスタムノード）の start_image と end_image 入力に接続します。
CLIP Text Encode ノードに、動画の内容を説明するプロンプト（例: "left hand moved from down to the hip, girl looking around"）を入力します。これにより、AIが動きの補完を行う際の補助情報を与えます。

4. 調整のコツ

実際に生成してみると、動きが破綻したり、ノイズが乗ったりすることがあります。以下のパラメータを調整してみてください。

5Bモデルと14Bモデルの使い分け

テスト段階では軽量な5Bモデルを使用することをお勧めします。RTX 3090環境でも、14Bモデルだと5秒の動画生成に3時間近くかかりますが、5Bモデルなら30分程度で完了します。構図や動きが確定してから、本番用として14Bでレンダリングするのが効率的です。

動きの大きさ

開始画像と終了画像の差が大きすぎると、AIは間のフレームをうまく生成できず、モーフィングのような不自然な変化になります。「5秒間で人間が自然に行える動作」を意識してキーフレームを作成しましょう。自分で鏡の前で動いて時間を計ってみるのも有効な手段です。

5. まとめ

Wan 2.2とComfyUIを組み合わせることで、静止画から一貫性のある高品質な動画を生成できるようになりました。特に「開始と終了を指定できる」という点は、映像制作のコントロール性を飛躍的に高める機能です。

最初は環境構築やレンダリング時間に戸惑うかもしれませんが、一度ワークフローを確立してしまえば、PC1台で映画のようなシーンを作り出すことも夢ではありません。ぜひ、あなたのクリエイティブワークに取り入れてみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。