未来的なPCモニターに表示されたWan 2.2動画生成インターフェースと輝くデジタルパーティクル。

WAN (WanVideo)

【VRAM8GBで動く】ComfyUIとWan 2.2 (2.1) GGUFで高品質な動画生成を低負荷で実現する方法

広告

低スペックGPUでも諦めない。
Wan 2.2 GGUFで挑む動画生成

VRAM 8GBの壁を越える。最新の量子化技術「GGUF」とComfyUIを組み合わせ、家庭用PCで映画級のAI動画生成を実現する最適解を解説します。

ワークフローを見る ▼

🎥 今回の参考動画はこちら



1. Wan 2.2 (Wan 2.1 改良版) とは? - できることの要約

AI動画生成の世界に新たな選択肢が登場しました。動画内で「Wan 2.2」として紹介されているのは、Alibaba Cloudが開発した強力な動画生成モデル「Wan 2.1」をベースに、コミュニティによる最適化(GGUF形式への変換や再パッケージ)が施されたバージョンです。

このモデルの最大の特徴は、圧倒的な「軽さ」と「画質」のバランスです。通常、高品質な動画生成には24GB以上のVRAMを持つ高価なGPU(例:RTX 3090/4090)が必要とされます。しかし、この「Wan 2.2 GGUF」モデルを使用することで、VRAM 8GBクラスのミドルレンジGPU(RTX 3060/4060等)でも、5B(50億パラメータ)モデルや、設定次第では14B(140億パラメータ)モデルを動作させることが可能になります。

本記事では、動画で紹介されているComfyUIとGGUF版モデルを使用した、低負荷かつ高品質な動画生成ワークフローを、私が検証した技術情報も交えて徹底解説します。

2. 必要な準備(PCスペック・モデル・カスタムノード)

実装に入る前に、必要な環境を整えましょう。GGUF形式を使うことで敷居は下がっていますが、以下の準備が必要です。

推奨PCスペック

VRAM 8GB以上のNVIDIA製GPUを推奨します。動画の検証によると、5BモデルのQ3〜Q6(量子化レベル)であれば8GBカードでも実用的な速度で動作します。

必要なカスタムノード

ComfyUI Managerを使用して、以下のノードをインストールしてください。

  • ComfyUI-GGUF (作成者: City96)
    GGUF形式のモデルを読み込むために必須です。検索バーで「GGUF」と入力して探してください。
  • ComfyUI-WanVideoWrapper (またはComfyUI標準のWan対応ノード)
    動画内では独自のラッパーを使用している可能性がありますが、基本的にはGGUFローダーと組み合わせることで動作します。

モデルファイルのダウンロード

Hugging Faceから以下のファイルをダウンロードし、ComfyUIの所定のフォルダ(models/unetmodels/diffusion_models など、使用するノードの指示に従ってください)に配置します。

  • モデルリポジトリ (例): Comfy-Org/Wan_2.1_ComfyUI_RepackagedQuarkStock/Wan2.1-T2V-14B-GGUF など
  • 推奨ファイル:
    • Wan2.1_T2V_5B_Q6_K.gguf (バランス重視)
    • Wan2.1_T2V_5B_Q4_K_M.gguf (軽量重視)
  • T5 Encoder & VAE: Wan 2.1用のT5エンコーダーとVAEも必要です。これらは models/text_encodersmodels/vae に配置します。

3. ComfyUIワークフロー徹底解説

ここが本記事のメインパートです。動画で採用されている「Dual KSampler(2段階サンプリング)」構成のワークフローを紐解いていきます。

ワークフローの全体像

このワークフローの特徴は、「High Noise(高ノイズ)」と「Low Noise(低ノイズ)」の2つのKSamplerを経由する点です。これにより、構図を決定する初期段階と、ディテールを詰める仕上げ段階を分け、品質を向上させています。

手順1: モデルのロード (GGUF)

まず、Unet Loader GGUF ノードを使用します。ここでダウンロードした .gguf ファイルを選択します。FP8やFP16の巨大なモデルファイルを読み込む代わりに、数GBに圧縮されたGGUFモデルを使うことで、VRAM使用量を劇的に削減します。

手順2: プロンプトとClipの入力

Load CLIP ノードと T5 Encoder を使用し、テキストプロンプトをエンコードします。動画では「T5」が画質に大きく影響するため、適切なT5モデル(UMT5など)を選択することが重要です。

手順3: Dual KSamplerによる生成

ここが最大のポイントです。

  1. 1つ目のKSampler (High Noise):
    ここではノイズ除去率(denoise)を高めに設定し、動画の全体的な動きや構図を生成します。GGUFの14Bモデルなどを使用する場合、ここで大枠を作ります。
  2. 2つ目のKSampler (Low Noise):
    1つ目の出力を受け取り、低いdenoise値(例: 0.3〜0.5)で再サンプリングします。これにより、テクスチャの書き込みやちらつきの抑制を行います。

動画内の検証では、この2段階構成により、単一のサンプラーよりも一貫性のある動画が生成されていました。

4. GGUF量子化ランク(Q値)調整のコツ

GGUFモデルには「Q3」「Q4」「Q6」「Q8」といったランクがあります。数字が大きいほど画質は良くなりますが、ファイルサイズとメモリ消費量が増えます。動画の検証結果に基づく選び方は以下の通りです。

  • Q2_K / Q3_K (超軽量):
    VRAM 6GB〜8GB向け。動作は軽快ですが、細部が潰れたり、動きに不自然なアーティファクト(ノイズ)が出やすい傾向があります。実験用として割り切るのが吉です。
  • Q4_K / Q5_K (推奨):
    最もバランスが良い設定です。 VRAM 8GB〜12GBで快適に動作し、FP16版と遜色ない画質が得られます。常用するならこのあたりを狙いましょう。
  • Q8_0 (高品質):
    ほぼ劣化なしの品質ですが、ファイルサイズが大きくなります。VRAMに余裕がある(16GB以上)場合や、ここぞという作品作りに使用してください。

5. まとめ

ComfyUIとGGUF技術の進化により、Wan 2.1 (Wan 2.2) のような最新の高性能動画生成AIが、家庭用のミドルスペックPCでも扱えるようになりました。

重要なのは、自分のハードウェア環境に合わせて適切な量子化モデル(Q値)を選ぶこと、そしてDual KSamplerのような工夫されたワークフローを活用することです。ぜひこの機会に、ローカル環境での高品質な動画生成に挑戦してみてください。


この記事の執筆・コーディング・デプロイは、
PythonとGemini APIで構築された自動化システムが実行しました。

開発工数をゼロにする
「完全自動化パイプライン」の仕組みを公開中。

AIツール宣伝バナー
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-WAN (WanVideo)
-, , , ,