「2枚の画像」が物語になる。
「最初のシーン」と「オチのシーン」を用意するだけ。あとはAIがその間を完璧に繋いでくれます。ComfyUIと最新のWan 2.2 Animateを使えば、映画のようなカメラワークも、商品の劇的なBefore/Afterも思いのまま。低スペックPCでも動くGGUF設定もあわせて解説します。
🎥 今回の参考動画はこちら ▼
1. Wan 2.2 Animateとは? - 2枚の画像で動画を制御する
こんにちは、AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で話題沸騰中のWan 2.2、特にその強力な新機能であるFirst and Last Frame(FLF)について解説します。
従来のImage-to-Video(I2V)は、「最初の1枚」から続きを予測して生成するものでした。しかし、これだと動画の最後がどうなるかはAI任せで、意図した結末にするのは困難でした。
Wan 2.2のFLF機能は違います。「開始フレーム」と「終了フレーム」の両方を指定できるのです。例えば、「アップの顔」から始まって「全身が映る引きの画」で終わる、といったカメラワーク制御や、異なる2つの状態をモーフィングで繋ぐ演出が、驚くほど自然に生成できます。
2. 必要な準備(ComfyUI・モデル・ノード)
このワークフローを動かすには、以下の準備が必要です。特にComfyUI本体のアップデートは必須です。
必須コンポーネント
- ComfyUI本体: 必ず最新版にアップデートしてください。古いバージョンでは
WanFirstLastFrameToVideoノードなどが動作しません。 - モデルファイル (Wan 2.2): Hugging Face等のリポジトリからダウンロードします。
- Diffusion Model:
wan2.2_i2v_...safetensors(14B)またはwan2.2_ti2v_5B...safetensors(5B Hybridモデル) - VAE:
wan_2.2_vae.safetensors(※2.1とは異なる場合があるため注意) - Text Encoder (T5):
umt5_xxl_fp8_e4m3fn_scaled.safetensors
- Diffusion Model:
推奨カスタムノード
- ComfyUI-WanVideoWrapper (by Kijai): Wanモデルを扱いやすくするためのラッパーノード集です。ComfyUI Managerからインストール可能です。
- ComfyUI-GGUF (by City96): VRAMが少ない環境(8GB〜12GB等)で動かす場合に必須です。
3. ComfyUIワークフロー徹底解説
では、具体的なノード構成を見ていきましょう。基本的には「ネイティブのWanノード」を使用するシンプルな構成です。
STEP 1: モデルのロード
まずはLoad Diffusion Model、Load CLIP、Load VAEノードを使って、先ほどダウンロードした各モデルを読み込みます。
💡 GGUF版を使う場合:
VRAMを節約したい場合は、通常のLoad Diffusion Modelの代わりに、UnetLoaderGGUFノードを使用します。ここで.gguf形式のモデル(例: Q4やQ5量子化)を選択することで、画質を維持したままメモリ消費を大幅に削減できます。
STEP 2: 画像のセットアップ(ここが肝!)
ここが今回の主役です。2つのLoad Imageノードを用意します。
- 1つ目のLoad Image: 「動画の開始地点」となる画像をアップロードします。
- 2つ目のLoad Image: 「動画の終了地点」となる画像をアップロードします。
これらを、WanFirstLastFrameToVideoノード(または同等の機能を持つノード)のstart_imageとend_imageピンにそれぞれ接続します。
STEP 3: パラメータ設定とプロンプト
WanFirstLastFrameToVideoノードの設定を行います。
- width / height: 入力画像のアスペクト比に合わせます(例: 584x880など)。解像度はモデルの推奨(720p等)に近づけるのがベストです。
- length (フレーム数): 動画の長さを決めます。5秒程度の動画なら
81〜121フレームが目安です。
最後に、プロンプトで「何が起きているか」を記述し、KSamplerに繋いで生成を実行します。例えば「A stunning supermodel walks confidently...(スーパーモデルが自信を持って歩いている)」のように、動きを補足する説明を入れると精度が上がります。
4. 品質アップの調整テクニック
実際に試行錯誤する中で見えてきた、品質向上のコツを共有します。
FPS設定は「16」か「24」か?
動画内での検証によると、デフォルトの24fpsでは動きが速すぎると感じることがあるようです。その場合、16fpsに設定し、フレーム数を調整することで、より自然で滑らかな動き(スローモーション気味なリッチな表現)が得られます。
GGUF版使用時の注意点
GGUF版(量子化モデル)は軽量で素晴らしいのですが、一部のエフェクト(例:雪が舞い散るパーティクル効果など)が、量子化レベルによっては省略されてしまう現象が確認されています。エフェクトのディテールを重視する場合は、VRAMが許す限りfp8などの標準モデルや、高精度の量子化モデル(Q8など)を使うことをお勧めします。
5. まとめ
Wan 2.2の「First and Last Frame」機能は、AI動画生成を「ガチャ」から「演出」へと進化させる強力なツールです。
開始と終了を決めるだけで、AIがその間をドラマチックに埋めてくれる。これにより、商品のプロモーション動画や、物語性のあるショートムービーの制作効率が劇的に向上するでしょう。
ぜひComfyUIをアップデートして、この新しい表現力を体験してみてください。
