ComfyUIとWan 2.2を使って、女性の顔のアップから全身像へ動画を生成するFirst-Last Frame機能のイメージ図

AI動画生成

【ComfyUI】Wan 2.2 Animate完全攻略!「最初と最後の画像」だけで動画を作る新機能&GGUF軽量化ガイド

広告

2025年最新モデル
Wan 2.2で動画編集が変わる。
「2枚の画像」が物語になる。

「最初のシーン」と「オチのシーン」を用意するだけ。あとはAIがその間を完璧に繋いでくれます。ComfyUIと最新のWan 2.2 Animateを使えば、映画のようなカメラワークも、商品の劇的なBefore/Afterも思いのまま。低スペックPCでも動くGGUF設定もあわせて解説します。


🎥 今回の参考動画はこちら



1. Wan 2.2 Animateとは? - 2枚の画像で動画を制御する

こんにちは、AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で話題沸騰中のWan 2.2、特にその強力な新機能であるFirst and Last Frame(FLF)について解説します。

従来のImage-to-Video(I2V)は、「最初の1枚」から続きを予測して生成するものでした。しかし、これだと動画の最後がどうなるかはAI任せで、意図した結末にするのは困難でした。

Wan 2.2のFLF機能は違います。「開始フレーム」と「終了フレーム」の両方を指定できるのです。例えば、「アップの顔」から始まって「全身が映る引きの画」で終わる、といったカメラワーク制御や、異なる2つの状態をモーフィングで繋ぐ演出が、驚くほど自然に生成できます。

2. 必要な準備(ComfyUI・モデル・ノード)

このワークフローを動かすには、以下の準備が必要です。特にComfyUI本体のアップデートは必須です。

必須コンポーネント

  • ComfyUI本体: 必ず最新版にアップデートしてください。古いバージョンではWanFirstLastFrameToVideoノードなどが動作しません。
  • モデルファイル (Wan 2.2): Hugging Face等のリポジトリからダウンロードします。
    • Diffusion Model: wan2.2_i2v_...safetensors(14B)またはwan2.2_ti2v_5B...safetensors(5B Hybridモデル)
    • VAE: wan_2.2_vae.safetensors(※2.1とは異なる場合があるため注意)
    • Text Encoder (T5): umt5_xxl_fp8_e4m3fn_scaled.safetensors

推奨カスタムノード

  • ComfyUI-WanVideoWrapper (by Kijai): Wanモデルを扱いやすくするためのラッパーノード集です。ComfyUI Managerからインストール可能です。
  • ComfyUI-GGUF (by City96): VRAMが少ない環境(8GB〜12GB等)で動かす場合に必須です。

3. ComfyUIワークフロー徹底解説

では、具体的なノード構成を見ていきましょう。基本的には「ネイティブのWanノード」を使用するシンプルな構成です。

STEP 1: モデルのロード

まずはLoad Diffusion ModelLoad CLIPLoad VAEノードを使って、先ほどダウンロードした各モデルを読み込みます。

💡 GGUF版を使う場合:
VRAMを節約したい場合は、通常のLoad Diffusion Modelの代わりに、UnetLoaderGGUFノードを使用します。ここで.gguf形式のモデル(例: Q4やQ5量子化)を選択することで、画質を維持したままメモリ消費を大幅に削減できます。

STEP 2: 画像のセットアップ(ここが肝!)

ここが今回の主役です。2つのLoad Imageノードを用意します。

  • 1つ目のLoad Image: 「動画の開始地点」となる画像をアップロードします。
  • 2つ目のLoad Image: 「動画の終了地点」となる画像をアップロードします。

これらを、WanFirstLastFrameToVideoノード(または同等の機能を持つノード)のstart_imageend_imageピンにそれぞれ接続します。

STEP 3: パラメータ設定とプロンプト

WanFirstLastFrameToVideoノードの設定を行います。

  • width / height: 入力画像のアスペクト比に合わせます(例: 584x880など)。解像度はモデルの推奨(720p等)に近づけるのがベストです。
  • length (フレーム数): 動画の長さを決めます。5秒程度の動画なら81121フレームが目安です。

最後に、プロンプトで「何が起きているか」を記述し、KSamplerに繋いで生成を実行します。例えば「A stunning supermodel walks confidently...(スーパーモデルが自信を持って歩いている)」のように、動きを補足する説明を入れると精度が上がります。

4. 品質アップの調整テクニック

実際に試行錯誤する中で見えてきた、品質向上のコツを共有します。

FPS設定は「16」か「24」か?

動画内での検証によると、デフォルトの24fpsでは動きが速すぎると感じることがあるようです。その場合、16fpsに設定し、フレーム数を調整することで、より自然で滑らかな動き(スローモーション気味なリッチな表現)が得られます。

GGUF版使用時の注意点

GGUF版(量子化モデル)は軽量で素晴らしいのですが、一部のエフェクト(例:雪が舞い散るパーティクル効果など)が、量子化レベルによっては省略されてしまう現象が確認されています。エフェクトのディテールを重視する場合は、VRAMが許す限りfp8などの標準モデルや、高精度の量子化モデル(Q8など)を使うことをお勧めします。

5. まとめ

Wan 2.2の「First and Last Frame」機能は、AI動画生成を「ガチャ」から「演出」へと進化させる強力なツールです。

開始と終了を決めるだけで、AIがその間をドラマチックに埋めてくれる。これにより、商品のプロモーション動画や、物語性のあるショートムービーの制作効率が劇的に向上するでしょう。

ぜひComfyUIをアップデートして、この新しい表現力を体験してみてください。


この記事の執筆・コーディング・デプロイは、
PythonとGemini APIで構築された自動化システムが実行しました。

開発工数をゼロにする
「完全自動化パイプライン」の仕組みを公開中。

AIツール宣伝バナー
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-AI動画生成
-, , , ,