静止画に「命」を吹き込む
🎥 今回の参考動画はこちら ▼
1. WAN 2.2 (WanVideo) Animateとは?
こんにちは、OKIHIROです。今回は、動画生成AI界隈で大きな注目を集めているAlibaba Tongyi Lab発のモデル、通称「WAN 2.2 Animate(ベースモデルはWan 2.1/WanVideo)」について解説します。
この技術の最大の特徴は、「たった1枚の人物画像」と「動きの参照用動画(Reference Video)」を組み合わせることで、画像の人物に動画と同じ動きをさせることができる点です。動画内ではHugging Face Space上のデモアプリが紹介されていますが、本記事ではこれをComfyUIを用いてローカル環境でより高度に制御する方法に焦点を当てます。
主な特徴は以下の通りです。
- Holistic Replication: 表情や細かな仕草まで自然に再現。
- Image-to-Video (I2V): 静止画を開始フレームとして動画を生成。
- 高い一貫性: 従来のモデルに比べ、キャラクターの破綻が少ない。
2. 必要な準備(モデル・カスタムノード)
ComfyUIでWANモデルを動かすための環境を整えましょう。VRAMは最低でも16GB以上、快適に動作させるには24GBが推奨されます。
推奨カスタムノード
現在、最も安定して動作するのはKijai氏が開発しているラッパーノードです。ComfyUI Managerで以下を検索してインストールしてください。
- ノード名:
ComfyUI-WanVideo-Wrapper - 開発者: Kijai
- インストール方法: Managerで「WanVideo」と検索し、Installボタンをクリックして再起動。
モデルのダウンロード
モデルファイルはHugging Faceからダウンロードし、所定のフォルダに配置します。
- ダウンロード先: Hugging Face上の
Wan-AI/Wan2.1-I2V-14B-480P(軽量版) またはWan-AI/Wan2.1-I2V-14B-720P - 配置場所:
ComfyUI/models/diffusion_modelsフォルダ内 - VAE: 同リポジトリ内の
Wan2.1_VAE.pthをダウンロードし、ComfyUI/models/vaeに配置。 - Text Encoder:
umt5-xxl-enc-bf16.safetensorsが必要です。ComfyUI/models/text_encodersに配置します。
3. ComfyUIワークフロー徹底解説
それでは、実際に動画を生成するためのワークフローを解説します。ここでは基本となるImage-to-Video (I2V) の構築手順を紹介します。
基本のノード構成
まず、以下の主要ノードを配置し、接続していきます。
- WanVideoCheckpointLoader: ダウンロードしたモデルとVAEを読み込みます。モデル名は
Wan2.1-I2V-14B-480P.safetensorsを選択します。 - Load Image: 動かしたいキャラクターの静止画を読み込みます。これが動画の1フレーム目になります。
- WanVideoTextEncoder: プロンプトを入力します。「a girl smiling, high quality」のように、画像の状況を補足するテキストを入力します。
- WanVideoSampler: 生成の中核となるノードです。
・modelピンにCheckpointLoaderの出力を接続。
・positiveピンにTextEncoderの出力を接続。
・imageピンにLoad Imageの出力を接続(ここが重要です💡)。 - VideoDecode: 生成された潜在空間(Latent)のデータを動画に変換します。
vaeピンにはCheckpointLoaderからのVAEを接続します。
参照動画の動きをコピーするには?
動画内で紹介されている「動きのコピー(Moveモード)」をComfyUIで再現するには、現時点ではControlNetやIPAdapterのような追加制御が必要です。
しかし、WanVideoのI2V機能だけでも、プロンプトで動きを指定することで(例:「dancing」「waving hand」)、静止画を自然に動かすことが可能です。より厳密に動画の動きをトレースさせたい場合は、Load Videoノードで動画を読み込み、それをVid2Vid(動画から動画への変換)の入力として使いつつ、Denoise強度を調整するアプローチが有効です。
4. 重要パラメータ調整のコツ
高品質な動画を生成するためのパラメータ設定のポイントです。
Steps(ステップ数)
通常は20〜30程度で十分な品質が得られます。数値を上げすぎると生成時間が長くなるだけでなく、逆に細部が崩れることもあります。
CFG Scale
プロンプトの従順さを決めます。WANモデルの場合、5.0〜7.0あたりが安定します。
Shift Parameters
動画の動きの大きさや変化量に影響します。動きが少なすぎる場合は、Samplerノード内のshift関連の値を少し上げてみてください。
5. まとめ
Wan 2.2 (2.1) Animateは、静止画一枚から驚くほどリアルな動画を生成できる強力なツールです。Web上のデモも手軽で素晴らしいですが、ComfyUIを使えば解像度や尺、プロンプトによる微調整など、クリエイティブの幅が無限に広がります。
ぜひ皆さんも、手持ちの画像を使って、キャラクターに新しい「命」を吹き込んでみてください。ComfyUIの自由度の高さを活かして、独自の表現を探求しましょう🚀
