ComfyUIでWan 2.2 Fun Inpaintを完全攻略！ネイティブノードで動画生成・編集を極める

動画生成の新境地へ
Wan 2.2 Fun Inpaint

ComfyUIのネイティブノードに完全対応した最新モデル「Wan 2.2 Fun Inpaint」。開始画像と終了画像を指定して動画の間を生成する強力な機能と、高速生成を実現するLightX2V LoRAの導入まで、AIアーキテクトが実践的なワークフローを徹底解説します。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan 2.2 Fun Inpaintとは？ - 表現力の拡張

ComfyUIユーザーの皆さん、こんにちは。OKIHIROです。今回は、動画生成AI界隈で話題の「Wan 2.2」シリーズに追加された、Fun Inpaintモデルについて解説します。

これまで紹介してきたベースモデル（Wan 2.1 Base）は、写実的で自然な動きが得意でしたが、今回扱うFunモデル（Fun Inpaint / Fun Control）は、よりクリエイティブな制御が可能です。特に注目すべきは、ComfyUIのネイティブノードに正式対応した点です。これにより、以前のようなVideo Wrapperを使用せずとも、標準的なノード構成で高度なインペイント処理が可能になりました。

本記事のゴールは、開始画像と終了画像を指定してその間を動画でつなぐという、実践的なアニメーション生成フローを構築することです。さらに、生成速度を劇的に向上させるLightX2V LoRAの導入についても触れていきます。

2. 必要な準備（モデル・LoRA・環境）

まずは環境を整えましょう。この実装における重要なポイントは、ComfyUI本体を最新版にアップデートすることです。古いバージョンでは、Funモデル用の新しいノードが表示されません。

必須モデルのダウンロード

以下のモデルファイルをHugging Face（Comfy-OrgやAlibaba-PAIのリポジトリ）からダウンロードし、指定のフォルダに配置してください。

Diffusion Models: wan2.2_fun_inp_high_noise.safetensors および low_noise 版
（配置先: models/diffusion_models/）
※ VRAM容量に応じて、FP8版またはBF16版を選択してください。基本はFP8版で十分な品質が出ます。
VAE: wan_2.1_vae.safetensors
（配置先: models/vae/）
Text Encoder (CLIP): umt5_xxl_fp16.safetensors
（配置先: models/text_encoders/ または models/clip/）
LoRA (高速化用): Wan2.2_LightX2V.safetensors
（配置先: models/loras/）

特にLoRAモデル「LightX2V」は、少ないステップ数で高品質な生成を可能にするため、導入を強く推奨します。

3. ComfyUIワークフロー徹底解説

それでは、実際のワークフロー構築に入りましょう。ComfyUI公式の「Browse Templates」から Wan2.2 14B Fun Inpaint のテンプレートを読み込むとスムーズですが、ここでは仕組みを理解するために各要素を解説します。

ステップ1: モデルとLoRAのロード

まず、Load Diffusion Model ノードでダウンロードしたFun Inpaintモデルを読み込みます。ここで重要なのは、High NoiseモデルとLow Noiseモデルの両方が必要になるケースがあるという点です（公式実装の仕様によりますが、基本は対になるモデルを使用します）。

次に、LoraLoaderModelOnly ノードを使用して、拡散モデルに対して LightX2V LoRA を適用します。これにより、サンプリングステップ数を大幅に削減（例: 50ステップ→4ステップ程度）しても破綻しにくくなり、試行錯誤の効率が爆発的に向上します。

ステップ2: 入力画像の準備とコンテキスト

今回の目玉である「開始フレーム」と「終了フレーム」の指定です。Load Image ノードを2つ用意し、それぞれ開始用と終了用の画像を読み込みます。

ここでのテクニックとして、Fluxモデルなどを使って「開始画像」からバリエーションとしての「終了画像」を生成しておく手法が有効です。例えば、正面を向いた人物（開始）と、後ろを向いた人物（終了）の画像を別で生成し、それらをWan 2.2に入力することで、「振り向く」動作を動画として生成させることができます。

ステップ3: WanFunInpaintToVideo ノードの接続

これが今回の核となるノードです。以前のベースモデル用ノード（WanFirstLastFrameToVideo）とは異なり、WanFunInpaintToVideo という専用ノードを使用します。

このノードの start_image ピンと end_image ピンに、先ほど読み込んだ画像のLatent（またはImage）データを接続します。また、positive と negative のプロンプト入力には、どのような動きをさせたいか（例: "The girl turns around 180 degrees"）を記述します。

4. 生成パラメータ調整と品質向上

実際に生成してみると、ベースモデルと比較してFunモデルは動きが少し「ロボット的」あるいは「硬い」印象を受けるかもしれません。これを改善するためのTipsを共有します。

フレーム補間による滑らかさの向上

生成される動画はFPSが低い場合があるため、Video Combine ノード等のフレーム補間機能を活用しましょう。これにより、カクつきを抑え、より自然な動画に仕上げることができます。

プロンプトでの動き制御

Funモデルはプロンプトの指示に従順です。「Zoom out」「Pan left」といったカメラワークの指示や、「Hair flowing in wind」のような環境の動きを明記することで、単純な変形だけでなく、空間的な広がりを感じさせる動画を生成できます。

5. まとめ

Wan 2.2 Fun Inpaintは、動画生成における「演出」の幅を広げる強力なツールです。特にネイティブノードに対応したことで、ComfyUIの他の強力な機能（ControlNetやIPAdapterなど）と組み合わせる未来も見えてきました。

ぜひ、お手持ちの画像を使って、静止画に生命を吹き込む体験を味わってみてください。コードとAIで、新しい表現を切り拓いていきましょう🚀

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。