One-To-All Animation
ComfyUIでの実装方法を徹底解説します。
🎥 今回の参考動画はこちら ▼
1. One-To-All Animationとは? - 従来との決定的な違い
AIアーキテクトのOKIHIROです。今回は、動画生成AI界隈で注目を集めている「One-To-All Animation」について解説します。これは、WAN 2.1をベースに開発された新しいフレームワークで、1枚の静止画(参照画像)を、別の動画(モーションガイド)の動きに合わせてアニメーション化する技術です。
従来の「Moore-AnimateAnyone」や初期のControlNetアプローチと比較して、以下の点が画期的です。
- アライメントフリー(位置合わせ不要): 参照画像とモーション動画のカメラ距離やアングルが異なっていても、AIが自動的に整合性を取ってくれます。
- 長時間の安定性: 従来モデルでありがちだった、時間が経つにつれて映像が崩壊する現象が大幅に改善されています。
- ポーズ転送の精度: 全身ショットからバストアップへの変換など、柔軟な画角調整が可能です。
この技術を使えば、例えば「座っているキャラクターの画像」から「元気にダンスしている動画」を生成するといったことが、破綻なく行えるようになります。それでは、具体的な実装方法を見ていきましょう。
2. 必要な準備(PCスペック・モデル・カスタムノード)
ComfyUIでこのワークフローを動かすために必要な環境を整えます。
推奨PCスペック
VRAM容量が重要です。14Bモデルを使用する場合は、24GB以上のVRAM(RTX 3090/4090など)が推奨されます。VRAMが12GB〜16GB程度の場合は、軽量化されたFP8モデルの使用を強くおすすめします。
必須カスタムノード
以下の2つのカスタムノードを、ComfyUI Managerの「Install via Git URL」または検索機能からインストールしてください。
- ComfyUI-WanVideoWrapper
開発者: Kijai氏
モデルのロードやサンプリングを行うメインのノード群です。最新版にアップデートすることで、OneToAll関連のノードが使用可能になります。 - ComfyUI-WanAnimatePreprocess
開発者: Kijai氏
入力動画から骨格(ポーズ)を検出するための前処理ノードです。
モデルファイルのダウンロード
Hugging Faceから以下のモデルをダウンロードし、ComfyUIの所定のフォルダ(models/diffusion_models 内など)に配置します。
Wan2.1_OneToAllAnimation_14B_fp16.safetensors(またはFP8版)WanVideo_VAEUmT5-xxlテキストエンコーダーLight_X2_V_LoRA(生成高速化用LoRA)
また、ポーズ検出用に yolox_l.onnx と vitpose-h-wholebody.onnx も必要になります。これらは通常、初回実行時に自動ダウンロードされるか、models/onnx フォルダ等に配置します。
3. ComfyUIワークフロー徹底解説
ここでは、動画で紹介されている標準的なワークフローの主要な接続ポイントを解説します。
(1) ポーズ検出とアライメント設定
このワークフローの核となるのが、Pose Detection OneToAll Animation ノードです。
- 入力: 参照画像(
ref_image)とモーション動画(images)を入力します。 - Align To(重要): ここでアライメントの基準を選びます。
・ref(Reference Image): 動画のポーズを参照画像のカメラ距離に合わせます。
・pose: 参照画像を動画のカメラ距離に合わせます。
基本的には ref を選択することをおすすめします。これにより、入力したキャラクター画像の画角を維持したまま動画を生成できます。
(2) モデルロードとLoRAの適用
WanVideo Model Loader でOne-To-Allモデルをロードし、続けて WanVideo Lora Select ノードで Light_X2_V_LoRA を適用します。このLoRAを使用することで、少ないステップ数(6〜8ステップ)でも高品質な動画生成が可能になり、処理時間を大幅に短縮できます。
(3) 生成と長尺化(ループ処理)
動画生成はバッチ処理で行われます。長時間の動画(例: 20秒以上)を作成する場合、一度に生成するとメモリがあふれてしまいます。
そこで、Image Batch Extend ノードなどの仕組みを使い、「前のセグメントの最後の数フレーム」を「次のセグメントの開始フレーム」として利用(オーバーラップ)しながら、シームレスに繋げていく手法をとります。動画内では、81フレーム生成し、そのうち5フレームをオーバーラップさせて次の生成に繋ぐ設定が紹介されています。
4. 「Align To」設定と画角調整のコツ
生成結果の品質を左右する最大の要因は、前述の「Align To」設定とアスペクト比です。
成功のポイント: アスペクト比を揃える
失敗例としてよくあるのが、参照画像とモーション動画のアスペクト比が極端に異なる場合です。例えば、縦長のスマホ動画のポーズを、正方形の画像に無理やり当てはめようとすると、手足が異常に伸びる「モンスター化」現象が起きます。
対策: 参照画像とモーション動画は、可能な限り近いアスペクト比にクロップ(切り抜き)してから入力しましょう。
背景の処理
Align To: pose を選択した場合、参照画像が縮小されて配置されることがあり、周囲に余白(黒帯やアルファ領域)ができる場合があります。生成される動画では、AIがこの余白を「背景」として勝手に描き足すことがあります。これをクリエイティブに利用して、スタジオのような背景を出現させることも可能ですが、意図しない場合は注意が必要です。
5. まとめ
One-To-All Animationは、従来の動画生成AIの課題であった「位置合わせの難しさ」と「長時間生成時の崩壊」を大きく改善した素晴らしい技術です。ComfyUIを使えば、ローカル環境で制限なくこの技術を試すことができます。
本記事のゴールは、まずは短いループ動画を破綻なく生成することです。ぜひ、手持ちの画像を使って、あなただけのAI動画作品を作ってみてください。
