青と琥珀色のデータストリームが融合し、動画フレームを形成する未来的なニューラルネットワークインターフェースのクローズアップ。

WAN (WanVideo)

【ComfyUI】Wan 2.2 完全ガイド!5B/14Bモデルの導入からI2V/T2Vワークフローまで徹底解説

広告

New Release
Wan 2.2 × ComfyUI
動画生成の新たな標準
MoEアーキテクチャを採用した最新モデル「Wan 2.2」が登場。5Bハイブリッドモデルの手軽さと、14Bモデルの圧倒的な表現力。ComfyUIでその真価を引き出す方法を、アーキテクト視点で解説します。
ワークフローへ移動 ▼

🎥 今回の参考動画はこちら



1. Wan 2.2とは? - できることの要約

2025年、Alibaba CloudのQwenチーム(Wan-AI)から、新たな動画生成AIモデル「Wan 2.2」がリリースされました。オープンソースかつApache 2.0ライセンスで提供されており、商用利用も可能な強力なモデルです。

本モデルの最大の特徴は、MoE(Mixture of Experts)アーキテクチャの採用と、その高い汎用性です。

  • 高度な制御: LoRAなどの追加学習なしで、ライティングの変更、昼夜の切り替え、カメラアングルの調整がある程度可能です。
  • 2つの主要モデル:
    • 14B MoE: 140億パラメータ。最高画質ですが、High/Lowの2段階ノイズ除去が必要でVRAM消費が大きいです。
    • 5B Hybrid: 50億パラメータ。T2VとI2Vの両方に対応し、単一ファイルで動作するためVRAM 12GB〜16GB程度の環境でも扱いやすいモデルです。
  • ComfyUIネイティブ対応: リリース初日からComfyUIで動作確認されており、複雑なワークフローも柔軟に組むことができます。

2. 必要な準備(PCスペック・モデル・カスタムノード)

Wan 2.2をComfyUIで動作させるための環境構築を行います。まず、ComfyUI本体を最新版にアップデートしてください(Managerの「Update ComfyUI」またはgit pull)。

必要なモデルファイルのダウンロード

Hugging Faceの「Wan-AI/Wan2.2」リポジトリ等から以下のファイルをダウンロードし、所定のフォルダに配置します。

A. テキストエンコーダー (共通)

Wan 2.1と同じumt5_xxl_fp16.safetensorsを使用します。

  • 配置先: ComfyUI/models/text_encoders/

B. VAE (モデルによって異なる)

ここは非常に重要です。使用するモデルによってVAEを使い分ける必要があります。

  • 14Bモデル使用時: Wan2.1_VAE.pth (またはsafetensors)
  • 5Bハイブリッドモデル使用時: Wan2.2_VAE.pth
  • 配置先: ComfyUI/models/vae/

C. 拡散モデル (Diffusion Models)

PCのスペックに合わせて選択してください。

  • 軽量版 (推奨): Wan 2.2 5B Hybrid
    ファイル名: wan2_2.2_t2v_5b_fp16.safetensors
    特徴: ファイルサイズ約10GB。これ1つでText-to-VideoとImage-to-Videoが可能です。
  • 高画質版: Wan 2.2 14B MoE
    必要なファイル: High NoiseモデルとLow Noiseモデルの2つが必須です。
    例: wan2_2.2_i2v_high_noise_14b_fp16.safetensors...low_noise...
    特徴: FP16版は合計約50GB以上。VRAM 24GB以上でも工夫が必要です。GGUF版(Q8など)の使用を強く推奨します。
  • 配置先: ComfyUI/models/diffusion_models/

3. ComfyUIワークフロー徹底解説

ここでは、最も多くのユーザーにおすすめできる「5B Hybridモデル」を使用したImage-to-Video (I2V) ワークフローを中心に解説します。

5B Hybridモデルの基本構成

このモデルは単一ファイルで動作するため、SDXLなどの従来のフローに近い感覚で扱えます。

  1. Load Checkpoint (または個別ローダー):
    Load Diffusion Modelノードで5Bモデルを読み込みます。Load VAEではWan 2.2用のVAEを選択してください。
  2. 画像の入力 (I2Vの場合):
    Load Imageノードで元画像を読み込みます。これをWan2.2 Image to Video Latentのような専用ノード(またはVAE Encode)に接続し、Latent空間へ変換します。
  3. プロンプト入力:
    CLIP Text Encodeノードで、動画の内容をテキストで指示します。UMT5エンコーダーを使用するため、自然言語での詳細な記述が有効です。
  4. サンプリング (KSampler):
    以下の設定を推奨します。
    • Steps: 20〜30
    • CFG: 5.0〜8.0
    • Sampler: uni_pc (動画内で推奨)
    • Scheduler: simple
  5. デコード:
    VAE Decodeで動画ファイルに変換します。

14B MoEモデルの特殊なワークフロー

14Bモデルを使用する場合、「High Noise」と「Low Noise」の2段階処理が必要です。これを誤るとノイズだらけの出力になります。

  • 第1段階 (High Noise):
    KSampler (Advanced)を使用します。
    Start Step: 0 / End Step: 10 (全20ステップの場合)
    重要: return_with_leftover_noiseenableにします。これにより、生成途中のノイズを含んだLatentを次へ渡します。
  • 第2段階 (Low Noise):
    2つ目のKSampler (Advanced)を使用します。
    Start Step: 10 / End Step: 20 (または10000)
    重要: add_noisedisableにします。前の工程から引き継いだノイズをそのまま除去していきます。

この「リレー方式」がWan 2.2 14Bモデルの肝となります。

4. Wan 2.2(重要パラメータ)調整のコツ

動画生成の品質を高めるためのTIPSを紹介します。

解像度は720p (1280x720) が推奨

実験の結果、480pよりも720p(または1280x736)の方が、動きが自然になる傾向があります。480pではキャラクターの動きが速すぎたり、ジャンピー(跳ねるような挙動)になったりすることがあります。VRAMが許す限り720p設定を目指しましょう。

サンプリングステップ数

5Bモデルの場合、20ステップでも十分な品質が出ますが、細部の書き込みを増やしたい場合は30ステップまで上げると良いでしょう。生成時間はRTX 6000 Adaで1分〜3分程度です。

GGUF版の活用

14Bモデルを使いたいがVRAMが足りない(24GB以下など)場合は、GGUF量子化モデル(Q8やQ4)を使用してください。Unet Loader GGUFノード等を使用することで、大幅にメモリ消費を抑えつつ、14B特有の物理演算の正確さ(バイクの傾きなど)を享受できます。

5. まとめ

Wan 2.2は、オープンソース動画生成AIの新たな基準となるモデルです。特に5Bモデルの「軽量かつ高品質」なバランスは、個人のクリエイターにとって強力な武器になります。

まずは5Bモデルで基本のI2Vを試し、より物理的な正確さやディテールを求める場合に14B(GGUF版)に挑戦するのが、OKIHIRO流の最適解です。ぜひあなたのローカル環境で、映画のようなワンシーンを生成してみてください。


この記事の執筆・コーディング・デプロイは、
PythonとGemini APIで構築された自動化システムが実行しました。

開発工数をゼロにする
「完全自動化パイプライン」の仕組みを公開中。

AIツール宣伝バナー
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-WAN (WanVideo)
-, , , ,