【ComfyUI】Wan 2.2 完全ガイド！5B/14Bモデルの導入からI2V/T2Vワークフローまで徹底解説

New Release

Wan 2.2 × ComfyUI
動画生成の新たな標準

MoEアーキテクチャを採用した最新モデル「Wan 2.2」が登場。5Bハイブリッドモデルの手軽さと、14Bモデルの圧倒的な表現力。ComfyUIでその真価を引き出す方法を、アーキテクト視点で解説します。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan 2.2とは？ - できることの要約

2025年、Alibaba CloudのQwenチーム（Wan-AI）から、新たな動画生成AIモデル「Wan 2.2」がリリースされました。オープンソースかつApache 2.0ライセンスで提供されており、商用利用も可能な強力なモデルです。

本モデルの最大の特徴は、MoE（Mixture of Experts）アーキテクチャの採用と、その高い汎用性です。

高度な制御: LoRAなどの追加学習なしで、ライティングの変更、昼夜の切り替え、カメラアングルの調整がある程度可能です。
2つの主要モデル:
- 14B MoE: 140億パラメータ。最高画質ですが、High/Lowの2段階ノイズ除去が必要でVRAM消費が大きいです。
- 5B Hybrid: 50億パラメータ。T2VとI2Vの両方に対応し、単一ファイルで動作するためVRAM 12GB〜16GB程度の環境でも扱いやすいモデルです。
ComfyUIネイティブ対応: リリース初日からComfyUIで動作確認されており、複雑なワークフローも柔軟に組むことができます。

2. 必要な準備（PCスペック・モデル・カスタムノード）

Wan 2.2をComfyUIで動作させるための環境構築を行います。まず、ComfyUI本体を最新版にアップデートしてください（Managerの「Update ComfyUI」またはgit pull）。

必要なモデルファイルのダウンロード

Hugging Faceの「Wan-AI/Wan2.2」リポジトリ等から以下のファイルをダウンロードし、所定のフォルダに配置します。

A. テキストエンコーダー (共通)

Wan 2.1と同じumt5_xxl_fp16.safetensorsを使用します。

配置先: ComfyUI/models/text_encoders/

B. VAE (モデルによって異なる)

ここは非常に重要です。使用するモデルによってVAEを使い分ける必要があります。

14Bモデル使用時: Wan2.1_VAE.pth (またはsafetensors)
5Bハイブリッドモデル使用時: Wan2.2_VAE.pth
配置先: ComfyUI/models/vae/

C. 拡散モデル (Diffusion Models)

PCのスペックに合わせて選択してください。

軽量版 (推奨): Wan 2.2 5B Hybrid
ファイル名: wan2_2.2_t2v_5b_fp16.safetensors
特徴: ファイルサイズ約10GB。これ1つでText-to-VideoとImage-to-Videoが可能です。
高画質版: Wan 2.2 14B MoE
必要なファイル: High NoiseモデルとLow Noiseモデルの2つが必須です。
例: wan2_2.2_i2v_high_noise_14b_fp16.safetensors と ...low_noise...
特徴: FP16版は合計約50GB以上。VRAM 24GB以上でも工夫が必要です。GGUF版（Q8など）の使用を強く推奨します。
配置先: ComfyUI/models/diffusion_models/

3. ComfyUIワークフロー徹底解説

ここでは、最も多くのユーザーにおすすめできる「5B Hybridモデル」を使用したImage-to-Video (I2V) ワークフローを中心に解説します。

5B Hybridモデルの基本構成

このモデルは単一ファイルで動作するため、SDXLなどの従来のフローに近い感覚で扱えます。

Load Checkpoint (または個別ローダー):
Load Diffusion Modelノードで5Bモデルを読み込みます。Load VAEではWan 2.2用のVAEを選択してください。
画像の入力 (I2Vの場合):
Load Imageノードで元画像を読み込みます。これをWan2.2 Image to Video Latentのような専用ノード（またはVAE Encode）に接続し、Latent空間へ変換します。
プロンプト入力:
CLIP Text Encodeノードで、動画の内容をテキストで指示します。UMT5エンコーダーを使用するため、自然言語での詳細な記述が有効です。
サンプリング (KSampler):
以下の設定を推奨します。
- Steps: 20〜30
- CFG: 5.0〜8.0
- Sampler: uni_pc (動画内で推奨)
- Scheduler: simple
デコード:
VAE Decodeで動画ファイルに変換します。

14B MoEモデルの特殊なワークフロー

14Bモデルを使用する場合、「High Noise」と「Low Noise」の2段階処理が必要です。これを誤るとノイズだらけの出力になります。

第1段階 (High Noise):
KSampler (Advanced)を使用します。
Start Step: 0 / End Step: 10 (全20ステップの場合)
重要: return_with_leftover_noiseをenableにします。これにより、生成途中のノイズを含んだLatentを次へ渡します。
第2段階 (Low Noise):
2つ目のKSampler (Advanced)を使用します。
Start Step: 10 / End Step: 20 (または10000)
重要: add_noiseをdisableにします。前の工程から引き継いだノイズをそのまま除去していきます。

この「リレー方式」がWan 2.2 14Bモデルの肝となります。

4. Wan 2.2（重要パラメータ）調整のコツ

動画生成の品質を高めるためのTIPSを紹介します。

解像度は720p (1280x720) が推奨

実験の結果、480pよりも720p（または1280x736）の方が、動きが自然になる傾向があります。480pではキャラクターの動きが速すぎたり、ジャンピー（跳ねるような挙動）になったりすることがあります。VRAMが許す限り720p設定を目指しましょう。

サンプリングステップ数

5Bモデルの場合、20ステップでも十分な品質が出ますが、細部の書き込みを増やしたい場合は30ステップまで上げると良いでしょう。生成時間はRTX 6000 Adaで1分〜3分程度です。

GGUF版の活用

14Bモデルを使いたいがVRAMが足りない（24GB以下など）場合は、GGUF量子化モデル（Q8やQ4）を使用してください。Unet Loader GGUFノード等を使用することで、大幅にメモリ消費を抑えつつ、14B特有の物理演算の正確さ（バイクの傾きなど）を享受できます。

5. まとめ

Wan 2.2は、オープンソース動画生成AIの新たな基準となるモデルです。特に5Bモデルの「軽量かつ高品質」なバランスは、個人のクリエイターにとって強力な武器になります。

まずは5Bモデルで基本のI2Vを試し、より物理的な正確さやディテールを求める場合に14B（GGUF版）に挑戦するのが、OKIHIRO流の最適解です。ぜひあなたのローカル環境で、映画のようなワンシーンを生成してみてください。

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。