動画生成の新たな標準
🎥 今回の参考動画はこちら ▼
1. Wan 2.2とは? - できることの要約
2025年、Alibaba CloudのQwenチーム(Wan-AI)から、新たな動画生成AIモデル「Wan 2.2」がリリースされました。オープンソースかつApache 2.0ライセンスで提供されており、商用利用も可能な強力なモデルです。
本モデルの最大の特徴は、MoE(Mixture of Experts)アーキテクチャの採用と、その高い汎用性です。
- 高度な制御: LoRAなどの追加学習なしで、ライティングの変更、昼夜の切り替え、カメラアングルの調整がある程度可能です。
- 2つの主要モデル:
- 14B MoE: 140億パラメータ。最高画質ですが、High/Lowの2段階ノイズ除去が必要でVRAM消費が大きいです。
- 5B Hybrid: 50億パラメータ。T2VとI2Vの両方に対応し、単一ファイルで動作するためVRAM 12GB〜16GB程度の環境でも扱いやすいモデルです。
- ComfyUIネイティブ対応: リリース初日からComfyUIで動作確認されており、複雑なワークフローも柔軟に組むことができます。
2. 必要な準備(PCスペック・モデル・カスタムノード)
Wan 2.2をComfyUIで動作させるための環境構築を行います。まず、ComfyUI本体を最新版にアップデートしてください(Managerの「Update ComfyUI」またはgit pull)。
必要なモデルファイルのダウンロード
Hugging Faceの「Wan-AI/Wan2.2」リポジトリ等から以下のファイルをダウンロードし、所定のフォルダに配置します。
A. テキストエンコーダー (共通)
Wan 2.1と同じumt5_xxl_fp16.safetensorsを使用します。
- 配置先:
ComfyUI/models/text_encoders/
B. VAE (モデルによって異なる)
ここは非常に重要です。使用するモデルによってVAEを使い分ける必要があります。
- 14Bモデル使用時:
Wan2.1_VAE.pth(またはsafetensors) - 5Bハイブリッドモデル使用時:
Wan2.2_VAE.pth - 配置先:
ComfyUI/models/vae/
C. 拡散モデル (Diffusion Models)
PCのスペックに合わせて選択してください。
- 軽量版 (推奨): Wan 2.2 5B Hybrid
ファイル名:wan2_2.2_t2v_5b_fp16.safetensors
特徴: ファイルサイズ約10GB。これ1つでText-to-VideoとImage-to-Videoが可能です。 - 高画質版: Wan 2.2 14B MoE
必要なファイル: High NoiseモデルとLow Noiseモデルの2つが必須です。
例:wan2_2.2_i2v_high_noise_14b_fp16.safetensorsと...low_noise...
特徴: FP16版は合計約50GB以上。VRAM 24GB以上でも工夫が必要です。GGUF版(Q8など)の使用を強く推奨します。 - 配置先:
ComfyUI/models/diffusion_models/
3. ComfyUIワークフロー徹底解説
ここでは、最も多くのユーザーにおすすめできる「5B Hybridモデル」を使用したImage-to-Video (I2V) ワークフローを中心に解説します。
5B Hybridモデルの基本構成
このモデルは単一ファイルで動作するため、SDXLなどの従来のフローに近い感覚で扱えます。
- Load Checkpoint (または個別ローダー):
Load Diffusion Modelノードで5Bモデルを読み込みます。Load VAEではWan 2.2用のVAEを選択してください。 - 画像の入力 (I2Vの場合):
Load Imageノードで元画像を読み込みます。これをWan2.2 Image to Video Latentのような専用ノード(またはVAE Encode)に接続し、Latent空間へ変換します。 - プロンプト入力:
CLIP Text Encodeノードで、動画の内容をテキストで指示します。UMT5エンコーダーを使用するため、自然言語での詳細な記述が有効です。 - サンプリング (KSampler):
以下の設定を推奨します。- Steps: 20〜30
- CFG: 5.0〜8.0
- Sampler:
uni_pc(動画内で推奨) - Scheduler:
simple
- デコード:
VAE Decodeで動画ファイルに変換します。
14B MoEモデルの特殊なワークフロー
14Bモデルを使用する場合、「High Noise」と「Low Noise」の2段階処理が必要です。これを誤るとノイズだらけの出力になります。
- 第1段階 (High Noise):
KSampler (Advanced)を使用します。Start Step: 0/End Step: 10(全20ステップの場合)
重要:return_with_leftover_noiseをenableにします。これにより、生成途中のノイズを含んだLatentを次へ渡します。 - 第2段階 (Low Noise):
2つ目のKSampler (Advanced)を使用します。Start Step: 10/End Step: 20(または10000)
重要:add_noiseをdisableにします。前の工程から引き継いだノイズをそのまま除去していきます。
この「リレー方式」がWan 2.2 14Bモデルの肝となります。
4. Wan 2.2(重要パラメータ)調整のコツ
動画生成の品質を高めるためのTIPSを紹介します。
解像度は720p (1280x720) が推奨
実験の結果、480pよりも720p(または1280x736)の方が、動きが自然になる傾向があります。480pではキャラクターの動きが速すぎたり、ジャンピー(跳ねるような挙動)になったりすることがあります。VRAMが許す限り720p設定を目指しましょう。
サンプリングステップ数
5Bモデルの場合、20ステップでも十分な品質が出ますが、細部の書き込みを増やしたい場合は30ステップまで上げると良いでしょう。生成時間はRTX 6000 Adaで1分〜3分程度です。
GGUF版の活用
14Bモデルを使いたいがVRAMが足りない(24GB以下など)場合は、GGUF量子化モデル(Q8やQ4)を使用してください。Unet Loader GGUFノード等を使用することで、大幅にメモリ消費を抑えつつ、14B特有の物理演算の正確さ(バイクの傾きなど)を享受できます。
5. まとめ
Wan 2.2は、オープンソース動画生成AIの新たな基準となるモデルです。特に5Bモデルの「軽量かつ高品質」なバランスは、個人のクリエイターにとって強力な武器になります。
まずは5Bモデルで基本のI2Vを試し、より物理的な正確さやディテールを求める場合に14B(GGUF版)に挑戦するのが、OKIHIRO流の最適解です。ぜひあなたのローカル環境で、映画のようなワンシーンを生成してみてください。
