デジタル空間に浮かぶ2つのフォトフレーム間を、青く輝くエネルギー粒子がつなぎ、動画生成プロセスを表現している3Dレンダリング画像。

WAN (WanVideo)

ComfyUI Wan 2.2 FLF2V: 始点と終点の画像から動画を生成する完全ガイド

広告

Wan 2.2 FLF2V
始点・終点指定で
自在に動画を生成する
ComfyUIの最新機能「First Last Frame to Video」を活用し、2枚の静止画から驚くほど自然なトランジション動画を作成する方法を解説します。

🎥 今回の参考動画はこちら



1. Wan 2.2 FLF2Vとは? - 静止画をつなぐ魔法

今回は、動画生成AI界隈で話題沸騰中のWan 2.2の新機能、FLF2V (First Last Frame to Video)について解説します。これは、その名の通り「最初のフレーム(始点)」と「最後のフレーム(終点)」を指定し、その間をAIに補間させる技術です。

従来の動画生成(Image to Video)は、1枚の開始画像から予測して動かすものでしたが、動きの着地点を制御するのは困難でした。しかし、FLF2Vを使えば、「座っているキャラクター」を始点、「立ち上がったキャラクター」を終点に設定することで、意図通りの演技やトランジションを生成させることが可能になります。

Wan 2.2は、MoE(Mixture of Experts)アーキテクチャを採用しており、非常に高品質な映像出力が特徴です。ComfyUIでのネイティブサポートも開始され、ローカル環境で映画のような演出を作り込めるようになりました。

2. 必要な準備(モデル・PCスペック)

このワークフローを動かすには、最新のComfyUIとWan 2.2用のモデルが必要です。VRAMは推奨24GB以上ですが、量子化モデルや解像度調整によって16GB程度の環境でも動作報告があります。

必要なモデルファイル

Hugging Faceの Wan-AI/Wan2.1-I2V-14B-720P (または対応するバージョン) リポジトリなどから以下をダウンロードし、ComfyUI/models/diffusion_models フォルダに配置してください。

  • wan2.1_i2v_14b_fp16.safetensors (または High/Low Noise版)

また、専用のVAEとCLIPモデルも必要です。

  • VAE: ComfyUI/models/vae に配置
  • CLIP (T5): ComfyUI/models/clip に配置 (例: umt5_xxl_fp16.safetensors)

注意: ファイルサイズが非常に大きいため(合計数十GB)、ディスク容量には十分な余裕を持たせてください。

3. ComfyUIワークフロー徹底解説

それでは、実際のワークフロー構築手順を見ていきましょう。基本構造はシンプルですが、ノードの接続順序が重要です。

ステップ1: 画像の読み込み

まず、始点と終点となる画像を読み込みます。ワークフロー上には2つの Load Image ノードを用意してください。

  • Load Image 1: 開始フレーム用(例: 正面を向いた車)
  • Load Image 2: 終了フレーム用(例: 後ろ姿の車)

ステップ2: WanFirstLastFrameToVideoノードの設定

ここが核心部分です。WanFirstLastFrameToVideo という専用ノード(またはこれに準ずるカスタムノード)を使用します。以下の接続を行います。

  • Load Image 1 の出力を、ノードの start_image 入力へ接続
  • Load Image 2 の出力を、ノードの end_image 入力へ接続
  • モデル(Diffusion, VAE, CLIP)ローダーからの出力を、それぞれの対応する入力へ接続

ステップ3: プロンプトと生成

CLIP Text Encode ノードで、どのような動きにするかを記述します。「smooth transition, cinematic lighting」のように、動きや雰囲気を補助するプロンプトが有効です。設定完了後、Queue Prompt を実行すれば、AIが2枚の画像の間を埋めるフレームを生成します。

4. クオリティアップのコツ:Fluxとの連携

FLF2Vの真価を発揮するのは、Fluxモデルと組み合わせた時です。例えば、FluxのInpaintingやContext機能を使って、「同じキャラクターの異なるポーズ」や「同じ構図でスタイルだけ変えた画像(アニメ調→実写調)」を用意します。

これらをFLF2Vの始点・終点として入力することで、YouTubeショート動画でよく見かける「アニメキャラが実写化するモーフィング動画」や「服だけが一瞬で変わる動画」などを、非常に高い一貫性で作成できます。

動画内でも紹介されている通り、単なるモーフィングだけでなく、カメラワーク(ドリーズームなど)を意識した始点・終点を用意することで、プロ顔負けの映像表現が可能になります。

5. まとめ

Wan 2.2のFLF2V機能は、AI動画生成における「制御性」を大きく向上させました。ComfyUIを使えば、ローカル環境でこの強力な機能を自由に実験できます。

最初は720p程度の解像度で試し、マシンスペックが許せば高解像度化に挑戦してみてください。静止画2枚から物語が生まれる体験は、クリエイターにとって大きな武器となるはず💡


この記事の執筆・コーディング・デプロイは、
PythonとGemini APIで構築された自動化システムが実行しました。

開発工数をゼロにする
「完全自動化パイプライン」の仕組みを公開中。

AIツール宣伝バナー
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-WAN (WanVideo)
-, , , ,