【Colab無料枠】Wan-Animate (Wan2.1) で高品質なAI動画生成を実装する方法

Google Colab無料枠で実現する
Wan-Animate動画生成の実装

14Bパラメータの高性能モデルをT4 GPUで動かす。メモリ最適化技術「Wan2GP」とLoRAを活用し、あなたのブラウザ上でVideo-to-Video変換を行うための技術ガイドです。

⚙️Wan2.1🐍Google Colab⚡T4 GPU Optimized

🎥 今回の参考動画はこちら ▼

Table of Contents

1. Wan-Animate と Wan2GP の技術概要

AIアーキテクトのOKIHIROです。今回は、通常であれば高価なハイエンドGPUを必要とする動画生成AIモデル「Wan-Animate (Wan2.1)」を、Google Colabの無料枠（Free Tier）で動作させる手法を解説します💡

Wan2.1はAlibaba Cloud発の高性能な動画生成モデルですが、パラメータ数（14Bなど）が多く、そのままではColabのT4 GPU（VRAM 15GB前後）での動作は困難です。しかし、オープンソースコミュニティにより開発された「Wan2GP」という実装を活用することで、これを可能にします。

Wan2GPは、モデルの量子化（Quantization Scaled Int8など）や、CPUへのオフロード処理を駆使してVRAM使用量を極限まで削減しています。これにより、生成速度とのトレードオフはありますが、誰でも無料でSOTA（State-of-the-Art）クラスの動画生成を試せる環境が整いました🚀

2. 環境構築とセットアップ

まずは実行環境を準備します。今回はGitHub上の以下のリポジトリを利用します。

🔗 リポジトリリンク (GitHub):

https://github.com/Square-Zero-Labs/Wan2GP-on-Colab

複雑なPython環境構築はノートブック側で自動化されています。

手順1: ノートブックの起動

上記GitHubリポジトリのREADMEにある「Open in Colab」ボタンからノートブックを開きます。Colabが開いたら、ランタイムのタイプが「T4 GPU」になっていることを確認してください（通常はデフォルトで設定されています）。

手順2: セルの実行

メニューから「ランタイム」→「すべてのセルを実行（Run all）」を選択します。警告が出た場合は「そのまま実行（Run anyway）」をクリックしてください。

このプロセスで以下の処理が自動的に行われます。

git clone によるリポジトリの取得
pip install による PyTorch, FFmpeg, Gradio 等の依存ライブラリのインストール
モデルの重みデータのダウンロード

注意点: Colabの通信状況によっては、依存関係のインストールに数分〜十数分かかる場合があります。ログを確認し、エラーが出ていないか注視しましょう✅

3. Wan-Animateの実装と操作手順

セットアップが完了すると、ログの最後にGradioのパブリックURL（https://xxxx.gradio.live のような形式）が表示されます。これをクリックしてGUIにアクセスします。

ステップ1: マスク動画の作成 (Video Mask Creator)

まず、動きの元となる「コントロール動画」から、人物部分を切り抜いたマスクを作成します。

GUI上部のタブから「Wan2.2」→「Animate」を選択。
さらにその下のメニューから「Video Mask Creator」タブを開きます。
「Step1: Upload video」に元動画（人物が動いている動画など）をドラッグ＆ドロップし、「Load Video」をクリック。
プレビューが表示されたら、抽出したい人物をクリックして選択範囲を指定します。
「Add Mask」をクリックし、続いて「Generate Video Matting」を実行します。
生成されたマスクを確認し、「Export to Control Video Input...」ボタンをクリックして、次の工程へデータを渡します。

トラブルシューティング: 初回実行時、必要な重みファイルが見つからずエラーになる場合があります。その際はColabのセル停止ボタンを押し、再度セルを実行して再起動すると、ファイル構造が正しく生成され動作します。

ステップ2: アニメーション生成の設定 (Video Generator)

次に、実際に動画を生成するための設定を行います。「Video Generator」タブに戻ります。

重要な設定パラメータ:

LoRA Preset: リストから「Image2Video FusionIX - 10 Steps」を選択し、「Apply」をクリックします。これにより推論ステップ数が10回に短縮され、生成時間が大幅に短縮されます。
Mode: 「Animate Person in Reference Image using Motion of Targeted Person in Control Video」を選択します。これはコントロール動画の動きを、静止画の人物に適用するモードです。
Reference Images: 動かしたい対象の画像をアップロードします。重要: 画像の解像度比率は、コントロール動画と一致させてください（例: 動画が9:16なら画像も9:16）。
Prompt: 動画の内容を記述します（例: The woman is dancing）。
Resolution: 無料枠のメモリ制限を考慮し、480p (480x832) 程度を推奨します。
Number of Frames: 動画では 81 フレームに設定しています。

ステップ3: 生成の実行

設定が完了したら「Generate」をクリックします。Colabの無料枠（T4 GPU）の場合、メモリ最適化プロファイル（Profile 5）で動作するため、生成には時間がかかります。動画の例では約44分かかっています。

処理中はColabのノートブックタブを開いたままにし、セッションが切れないように注意してください（時々操作する、音声を出力するなどしてアクティブ状態を保つ工夫が必要です）。

4. 応用・注意点

この実装における技術的な注意点をまとめます。

解像度の一致: 入力動画、リファレンス画像、出力設定の解像度（アスペクト比）が異なると、エラーの原因や予期せぬ歪みにつながります。事前に画像編集ソフト等でサイズを揃えておくことを強く推奨します。
生成時間: メモリ不足を回避するためにCPUオフロードを多用しているため、GPUフル稼働の環境に比べて非常に低速です。長時間の生成になることを覚悟しましょう。
モデルの多様性: リファレンス画像を変更することで、同じダンス動画から「実写の女性」や「ポーラーベアのキャラクター」など、全く異なる被写体の動画を生成可能です💡

5. まとめ

Google Colabの無料枠でも、Wan2GPのような最適化ツールを活用することで、最新のWan2.1モデルを動作させることが可能です。時間はかかりますが、ハイエンドPCを持っていなくても最先端のAI動画生成を実験できる素晴らしい環境です。

ぜひ上記GitHubリポジトリを活用して、独自のクリエイティブな動画制作に挑戦してみてください。PythonとAIの力で、表現の幅は無限に広がります🚀

【免責事項】本記事は、AI技術を用いて作成された部分を含みます。公開時点の情報に基づいていますが、AIの仕様変更やサービスの更新により、内容が現状と異なる場合があります。最新の情報は公式サイト等でご確認ください。