【ComfyUI】Kling AIに匹敵！最新モデル「Wan 2.1」で映画級アクション動画を生成する方法

ComfyUI × Wan 2.1
映画級アクション動画を
ローカルで生成する

動画生成AI「Kling」のクオリティを、自宅のPCで再現しませんか？最新オープンモデル「Wan 2.1」の実力を引き出すワークフローを解説します。

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan 2.1とは？ - Kling AIに迫る表現力

AI動画生成の世界は日進月歩です。参考動画では、ブラウザベースのサービス「Kling AI」を使用して、画像の開始フレーム（Start Frame）と終了フレーム（End Frame）を指定し、非常に滑らかなアクション動画を生成していました。特に、キャラクターが水流を盾に変えるような複雑なモーフィング表現は圧巻です。

しかし、私たちエンジニアやクリエイターにとって、クラウドサービスの制限やコストは悩みの種です。そこで注目したいのが、Alibaba Cloudが公開した最新の動画生成モデル「Wan 2.1」です。

Wan 2.1は、オープンウェイトでありながら商用モデルに匹敵する生成能力を持ち、ComfyUI上で動作させることが可能です。特に「Image-to-Video（I2V）」の性能が高く、1枚の画像からドラマチックな動画を生み出すことができます。

2. 必要な準備（PCスペック・モデル・カスタムノード）

ローカル環境でWan 2.1を動かすための準備をしましょう。VRAMは最低でも12GB、快適に動かすなら16GB以上推奨です。

カスタムノードのインストール

ComfyUI Managerを開き、以下のノードを検索してインストールしてください。Kijai氏によるラッパーノードが最も使いやすく整備されています。

ComfyUI-WanVideo-Wrapper (by Kijai)

手動でインストールする場合は、custom_nodes フォルダで以下のコマンドを実行します。

git clone https://github.com/kijai/ComfyUI-WanVideo-Wrapper.git

モデルのダウンロード

Hugging Faceの Wan-AI/Wan2.1-I2V-14B-480P リポジトリからモデルをダウンロードします。14B（140億パラメータ）モデルは非常に巨大ですが、画質は最高峰です。

Wan2.1_I2V_14B_480P.safetensors (約28GB)

ダウンロードしたファイルは、ComfyUIの models/diffusion_models フォルダ（または models/wan フォルダが作成されていればそこ）に配置してください。

3. ComfyUIワークフロー徹底解説

それでは、Wan 2.1を使ってアクション動画を生成するワークフローを解説します。今回は「静止画を動かす（I2V）」構成です。

ステップ1: 画像の読み込み

まず、Load Image ノードで、動かしたい元画像を読み込みます。動画のように、MidjourneyやFluxで生成した「カンフーの構え」のような画像を用意しましょう。

ステップ2: モデルのロード

WanVideoLoader ノードを使用します。ここで先ほどダウンロードした Wan2.1_I2V_14B_480P.safetensors を選択します。このノードはモデルだけでなく、VAEやClip（T5）もまとめてロードしてくれる場合が多いですが、T5エンコーダーが別途必要な場合は WanVideoTextEncoderLoader を併用してください。

ステップ3: 動画生成の設定

WanVideoI2V ノード（またはサンプラーノード）を配置し、以下のように接続します。

model ← WanVideoLoader の model出力
vae ← WanVideoLoader の vae出力
image ← Load Image の出力

ここで重要なパラメータが Sampling Steps と CFG Scale です。Wan 2.1は比較的少ないステップ数（20〜30）でも綺麗に生成されますが、動きを大きくしたい場合はステップ数を増やし、CFGを少し下げる（例: 5.0〜6.0）と破綻しにくくなります。

ステップ4: 保存

最後に Video Combine や Save AnimatedWEBP などの保存用ノードに接続して出力します。

4. プロンプトで動きを制御するコツ

動画内で紹介されていた「Kling AI」にはStart/Endフレーム機能がありましたが、ComfyUIのWan 2.1（I2V）では、主に「開始画像 + テキストプロンプト」で動きを制御します。

アクション描写の具体化

例えば、動画のような「火の玉を投げる」シーンを作りたい場合、単に「fighting」と書くのではなく、動作を具体的に記述します。

Cinematic shot, a female martial artist throwing a fireball, dynamic camera movement, slow motion, high quality, 4k

カメラワークの指定

Wan 2.1はカメラワークの指示にも敏感です。以下のキーワードをプロンプトに含めてみてください。

zoom in / zoom out: 迫力を出す基本
pan left / pan right: 横の動き
low angle shot: キャラクターを大きく強く見せる（動画の8:11付近で解説されていたテクニックです）

Endフレームを厳密に指定したい場合は、今後ComfyUIでの実装が期待される「SparseCtrl」のような制御技術が必要になりますが、現時点ではプロンプトによる誘導で十分ドラマチックな映像が作れます。

5. まとめ

動画で紹介されていたKling AIのような高度な動画生成は、ComfyUIとWan 2.1を使うことでローカル環境でも実現可能です。

Wan 2.1 はオープンモデルとして最高峰のI2V性能を持つ。
ComfyUI-WanVideo-Wrapper を使えば簡単に導入可能。
プロンプトでカメラワークやアクションの詳細を指示することが品質向上の鍵。

ぜひ、あなたのPCで映画のようなワンシーンを生成してみてください。AI動画生成の進化は、まさに今、私たちの手の中にあります🚀

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。