WAN 2.2 FMLFの衝撃
低ノイズサンプリングの特殊設定で、キーフレーム間の遷移ノイズを極限まで抑制。
🎥 今回の参考動画はこちら ▼
1. Wan 2.2 Animateとは? - FMLFで変わる動画生成
こんにちは、AIアーキテクトのOKIHIROです。
2025年後半、動画生成AI界隈を席巻しているのが「Wan 2.2 Animate」です。特に今回紹介する技術は、従来の動画生成の常識を覆すものです。
これまでのImage-to-Video(I2V)は、主に「最初のフレーム(Start Frame)」と「最後のフレーム(Last Frame)」を指定して、その間をAIに補完させる手法が主流でした。
しかし、これには弱点がありました。「A地点からB地点に移動する」という単純な動きなら良いのですが、「歩いてきて、途中で立ち止まり、振り返る」といった複合的なアクションを指示するのが非常に難しかったのです。
そこで登場したのが、今回解説する「FMLF(First-Middle-Last Frame)」という手法です。
この手法では、始点と終点に加えて「中間フレーム(Middle Frame)」を指定できます。これにより、動画のストーリー構成力と、キャラクターの演技の一貫性が劇的に向上します。
2. 必要な準備(PCスペック・モデル・カスタムノード)
本実装における環境構築のポイントを解説します。今回は最新のカスタムノードを使用するため、ComfyUIのアップデートを忘れずに行ってください。
必須カスタムノード
まずは、今回の主役となる拡張機能をインストールします。
ComfyUIのcustom_nodesフォルダで以下のコマンドを実行するか、ComfyUI Managerからインストールしてください。
- リポジトリ名:
ComfyUI-Wan22FMLF - 開発者: wallen0322
git clone https://github.com/wallen0322/ComfyUI-Wan22FMLF.git必要なモデルファイル
Wan 2.2は「高ノイズ(High Noise)」と「低ノイズ(Low Noise)」の2つのモデルを使い分ける特殊な構成になっています。Hugging Face等から以下をダウンロードしてください。
- Diffusion Models:
wan2.2_i2v_high_noise_14B_fp8_scaled.safetensorswan2.2_i2v_low_noise_14B_fp8_scaled.safetensors
- LoRA (必須):
wan2.2_i2v_A14b_high_noise_lora_rank64_lightx2v_4step_1022.safetensors
- Text Encoder:
umt5_xxl_fp8_e4m3fn_scaled.safetensors - VAE:
wan_2.1_vae.safetensors
これらはファイルサイズが大きい(合計20GB超)ため、十分なストレージを確保しましょう。
3. ComfyUIワークフロー徹底解説
では、実際のワークフロー構築に移ります。この実装の最大のポイントは、「3つの画像をどのように潜在空間(Latent Space)に注入するか」です。
STEP 1: 3枚のキーフレーム画像を用意
まず、動画の「始点」「中間」「終点」となる3枚の画像をロードします。
ここでのコツは、「背景や服装の一貫性を保つこと」です。全く異なるシーンの画像をつなぐと、AIが混乱し、モーフィングのような不自然な映像になってしまいます。
3枚の画像をそれぞれLoad Imageノードで読み込み、リサイズノードを通して動画の解像度(例: 960x544)に合わせておきます。
STEP 2: FMLFノードの設定
次に、今回導入したWan First Middle Last Frameノードを使用します。このノードが魔法の杖です。
このノードには以下の入力を接続します。
- positive/negative: プロンプト条件
- vae: VAEモデル
- start_image: 1枚目の画像
- middle_image: 2枚目の画像
- end_image: 3枚目の画像
- clip_vision_...: 各画像のCLIPエンコード結果
これで、3つの画像情報がモデルのConditioning(条件)として統合されます。
STEP 3: モデルのロードとConditioningの分割
Wan 2.2の面白い点は、Conditioningが「高ノイズ用」と「低ノイズ用」に分かれることです。
Wan First Middle Last Frameノードからは、以下の3つの出力が得られます。
- Set_h_con (High Noise Positive): 動画の全体構成や大きな動きを決定
- Set_l_con (Low Noise Positive): 細部のディテールや質感を決定
- Set_con (Negative): 共通のネガティブプロンプト
これらを、サンプラーの手前で適切にモデルに渡す必要があります。
4. 「ちらつき」を防ぐパラメータ調整の極意
ここが最も重要なテクニックです。FMLFで生成すると、中間フレーム付近で画面がボヤけたり、チカチカと点滅(フリッカー)したりすることがあります。
これを防ぐために、Wan First Middle Last Frameノードの以下のパラメータを調整します。
重要パラメータ:low_noise_strength
これは「低ノイズサンプリング段階(ディテール生成)」において、中間画像の影響をどれだけ強くするかを決める数値です。
- デフォルト値: 0.2〜0.3
- 推奨値:
0.0〜 0.1
動画内で解説されている通り、この値を思い切って0.0に設定することで、中間フレームへの無理な収束が防がれ、驚くほどスムーズな遷移が得られます。
逆に、high_noise_strength(高ノイズ段階の影響度)は0.6程度に保つことで、動きの構成自体はしっかりと中間フレームに従わせることができます。
5. まとめ
Wan 2.2 AnimateとFMLFノードを組み合わせることで、動画生成の制御レベルは格段に上がります。
- 3点制御: 始点・中間・終点で複雑な演技を指示できる。
- 低ノイズ設定:
low_noise_strengthを0にすることで、遷移品質を劇的に向上させる。 - 垂直動画: キャラクター中心の動画(縦長)の方が、背景の破綻が少なく成功率が高い。
PCスペックに余裕がない場合は、動画内でも紹介されている「RunningHub」のようなクラウド環境を利用するのも賢い選択肢です(ログインボーナスで1日約100ポイント=数回の生成が無料試行可能です)。
ぜひこのワークフローで、あなたのAI映像作品を「動く紙芝居」から「映画」へと進化させてください🚀
