Wan 2.2 Fun Inpaint
🎥 今回の参考動画はこちら ▼
1. Wan 2.2 Fun Inpaintとは? - 表現力の拡張
ComfyUIユーザーの皆さん、こんにちは。OKIHIROです。今回は、動画生成AI界隈で話題の「Wan 2.2」シリーズに追加された、Fun Inpaintモデルについて解説します。
これまで紹介してきたベースモデル(Wan 2.1 Base)は、写実的で自然な動きが得意でしたが、今回扱うFunモデル(Fun Inpaint / Fun Control)は、よりクリエイティブな制御が可能です。特に注目すべきは、ComfyUIのネイティブノードに正式対応した点です。これにより、以前のようなVideo Wrapperを使用せずとも、標準的なノード構成で高度なインペイント処理が可能になりました。
本記事のゴールは、開始画像と終了画像を指定してその間を動画でつなぐという、実践的なアニメーション生成フローを構築することです。さらに、生成速度を劇的に向上させるLightX2V LoRAの導入についても触れていきます。
2. 必要な準備(モデル・LoRA・環境)
まずは環境を整えましょう。この実装における重要なポイントは、ComfyUI本体を最新版にアップデートすることです。古いバージョンでは、Funモデル用の新しいノードが表示されません。
必須モデルのダウンロード
以下のモデルファイルをHugging Face(Comfy-OrgやAlibaba-PAIのリポジトリ)からダウンロードし、指定のフォルダに配置してください。
- Diffusion Models:
wan2.2_fun_inp_high_noise.safetensorsおよびlow_noise版
(配置先:models/diffusion_models/)
※ VRAM容量に応じて、FP8版またはBF16版を選択してください。基本はFP8版で十分な品質が出ます。 - VAE:
wan_2.1_vae.safetensors
(配置先:models/vae/) - Text Encoder (CLIP):
umt5_xxl_fp16.safetensors
(配置先:models/text_encoders/またはmodels/clip/) - LoRA (高速化用):
Wan2.2_LightX2V.safetensors
(配置先:models/loras/)
特にLoRAモデル「LightX2V」は、少ないステップ数で高品質な生成を可能にするため、導入を強く推奨します。
3. ComfyUIワークフロー徹底解説
それでは、実際のワークフロー構築に入りましょう。ComfyUI公式の「Browse Templates」から Wan2.2 14B Fun Inpaint のテンプレートを読み込むとスムーズですが、ここでは仕組みを理解するために各要素を解説します。
ステップ1: モデルとLoRAのロード
まず、Load Diffusion Model ノードでダウンロードしたFun Inpaintモデルを読み込みます。ここで重要なのは、High NoiseモデルとLow Noiseモデルの両方が必要になるケースがあるという点です(公式実装の仕様によりますが、基本は対になるモデルを使用します)。
次に、LoraLoaderModelOnly ノードを使用して、拡散モデルに対して LightX2V LoRA を適用します。これにより、サンプリングステップ数を大幅に削減(例: 50ステップ→4ステップ程度)しても破綻しにくくなり、試行錯誤の効率が爆発的に向上します。
ステップ2: 入力画像の準備とコンテキスト
今回の目玉である「開始フレーム」と「終了フレーム」の指定です。Load Image ノードを2つ用意し、それぞれ開始用と終了用の画像を読み込みます。
ここでのテクニックとして、Fluxモデルなどを使って「開始画像」からバリエーションとしての「終了画像」を生成しておく手法が有効です。例えば、正面を向いた人物(開始)と、後ろを向いた人物(終了)の画像を別で生成し、それらをWan 2.2に入力することで、「振り向く」動作を動画として生成させることができます。
ステップ3: WanFunInpaintToVideo ノードの接続
これが今回の核となるノードです。以前のベースモデル用ノード(WanFirstLastFrameToVideo)とは異なり、WanFunInpaintToVideo という専用ノードを使用します。
このノードの start_image ピンと end_image ピンに、先ほど読み込んだ画像のLatent(またはImage)データを接続します。また、positive と negative のプロンプト入力には、どのような動きをさせたいか(例: "The girl turns around 180 degrees")を記述します。
4. 生成パラメータ調整と品質向上
実際に生成してみると、ベースモデルと比較してFunモデルは動きが少し「ロボット的」あるいは「硬い」印象を受けるかもしれません。これを改善するためのTipsを共有します。
フレーム補間による滑らかさの向上
生成される動画はFPSが低い場合があるため、Video Combine ノード等のフレーム補間機能を活用しましょう。これにより、カクつきを抑え、より自然な動画に仕上げることができます。
プロンプトでの動き制御
Funモデルはプロンプトの指示に従順です。「Zoom out」「Pan left」といったカメラワークの指示や、「Hair flowing in wind」のような環境の動きを明記することで、単純な変形だけでなく、空間的な広がりを感じさせる動画を生成できます。
5. まとめ
Wan 2.2 Fun Inpaintは、動画生成における「演出」の幅を広げる強力なツールです。特にネイティブノードに対応したことで、ComfyUIの他の強力な機能(ControlNetやIPAdapterなど)と組み合わせる未来も見えてきました。
ぜひ、お手持ちの画像を使って、静止画に生命を吹き込む体験を味わってみてください。コードとAIで、新しい表現を切り拓いていきましょう🚀
