暗いスタジオ内で静止画が動画へと変換される様子を示す、青とピンクのネオンが輝く未来的なデジタルインターフェース。

WAN (WanVideo)

【ComfyUI】WAN 2.2 (2.1) Animate徹底解説|静止画を動画へ&人物置換ワークフロー

広告

ComfyUI × 最新動画生成
WAN 2.2 Animateで
静止画に「命」を吹き込む
1枚の画像と参照動画があれば、ダンスも演技も自由自在。Alibaba発の最新モデル「WAN」の実力を、ローカル環境で引き出すための完全ガイドです。

🎥 今回の参考動画はこちら



1. WAN 2.2 (WanVideo) Animateとは?

こんにちは、OKIHIROです。今回は、動画生成AI界隈で大きな注目を集めているAlibaba Tongyi Lab発のモデル、通称「WAN 2.2 Animate(ベースモデルはWan 2.1/WanVideo)」について解説します。

この技術の最大の特徴は、「たった1枚の人物画像」と「動きの参照用動画(Reference Video)」を組み合わせることで、画像の人物に動画と同じ動きをさせることができる点です。動画内ではHugging Face Space上のデモアプリが紹介されていますが、本記事ではこれをComfyUIを用いてローカル環境でより高度に制御する方法に焦点を当てます。

主な特徴は以下の通りです。

  • Holistic Replication: 表情や細かな仕草まで自然に再現。
  • Image-to-Video (I2V): 静止画を開始フレームとして動画を生成。
  • 高い一貫性: 従来のモデルに比べ、キャラクターの破綻が少ない。

2. 必要な準備(モデル・カスタムノード)

ComfyUIでWANモデルを動かすための環境を整えましょう。VRAMは最低でも16GB以上、快適に動作させるには24GBが推奨されます。

推奨カスタムノード

現在、最も安定して動作するのはKijai氏が開発しているラッパーノードです。ComfyUI Managerで以下を検索してインストールしてください。

  • ノード名: ComfyUI-WanVideo-Wrapper
  • 開発者: Kijai
  • インストール方法: Managerで「WanVideo」と検索し、Installボタンをクリックして再起動。

モデルのダウンロード

モデルファイルはHugging Faceからダウンロードし、所定のフォルダに配置します。

  • ダウンロード先: Hugging Face上の Wan-AI/Wan2.1-I2V-14B-480P (軽量版) または Wan-AI/Wan2.1-I2V-14B-720P
  • 配置場所: ComfyUI/models/diffusion_models フォルダ内
  • VAE: 同リポジトリ内の Wan2.1_VAE.pth をダウンロードし、ComfyUI/models/vae に配置。
  • Text Encoder: umt5-xxl-enc-bf16.safetensors が必要です。ComfyUI/models/text_encoders に配置します。

3. ComfyUIワークフロー徹底解説

それでは、実際に動画を生成するためのワークフローを解説します。ここでは基本となるImage-to-Video (I2V) の構築手順を紹介します。

基本のノード構成

まず、以下の主要ノードを配置し、接続していきます。

  1. WanVideoCheckpointLoader: ダウンロードしたモデルとVAEを読み込みます。モデル名はWan2.1-I2V-14B-480P.safetensorsを選択します。
  2. Load Image: 動かしたいキャラクターの静止画を読み込みます。これが動画の1フレーム目になります。
  3. WanVideoTextEncoder: プロンプトを入力します。「a girl smiling, high quality」のように、画像の状況を補足するテキストを入力します。
  4. WanVideoSampler: 生成の中核となるノードです。
    modelピンにCheckpointLoaderの出力を接続。
    positiveピンにTextEncoderの出力を接続。
    imageピンにLoad Imageの出力を接続(ここが重要です💡)。
  5. VideoDecode: 生成された潜在空間(Latent)のデータを動画に変換します。vaeピンにはCheckpointLoaderからのVAEを接続します。

参照動画の動きをコピーするには?

動画内で紹介されている「動きのコピー(Moveモード)」をComfyUIで再現するには、現時点ではControlNetIPAdapterのような追加制御が必要です。

しかし、WanVideoのI2V機能だけでも、プロンプトで動きを指定することで(例:「dancing」「waving hand」)、静止画を自然に動かすことが可能です。より厳密に動画の動きをトレースさせたい場合は、Load Videoノードで動画を読み込み、それをVid2Vid(動画から動画への変換)の入力として使いつつ、Denoise強度を調整するアプローチが有効です。

4. 重要パラメータ調整のコツ

高品質な動画を生成するためのパラメータ設定のポイントです。

Steps(ステップ数)

通常は20〜30程度で十分な品質が得られます。数値を上げすぎると生成時間が長くなるだけでなく、逆に細部が崩れることもあります。

CFG Scale

プロンプトの従順さを決めます。WANモデルの場合、5.0〜7.0あたりが安定します。

Shift Parameters

動画の動きの大きさや変化量に影響します。動きが少なすぎる場合は、Samplerノード内のshift関連の値を少し上げてみてください。

5. まとめ

Wan 2.2 (2.1) Animateは、静止画一枚から驚くほどリアルな動画を生成できる強力なツールです。Web上のデモも手軽で素晴らしいですが、ComfyUIを使えば解像度や尺、プロンプトによる微調整など、クリエイティブの幅が無限に広がります。

ぜひ皆さんも、手持ちの画像を使って、キャラクターに新しい「命」を吹き込んでみてください。ComfyUIの自由度の高さを活かして、独自の表現を探求しましょう🚀


この記事の執筆・コーディング・デプロイは、
PythonとGemini APIで構築された自動化システムが実行しました。

開発工数をゼロにする
「完全自動化パイプライン」の仕組みを公開中。

AIツール宣伝バナー
  • この記事を書いた人
  • 最新記事

運営者:OKIHIRO

Gemini API × Python のスペシャリスト。 AI技術でWeb制作とブログ運営を完全自動化するエンジニア。 理論だけでなく、実際に動くコードとシステム設計で、クリエイターの時間を「単純作業」から解放する。 最先端AIの実装ノウハウを、どこよりも分かりやすく発信中。

-WAN (WanVideo)
-, , , ,