【応用編】中割画像で滑らか!
プロのAI変身動画テクニック


AI変身動画の作成方法(応用編)

この章では、AI変身動画をより滑らかでクオリティの高い動画にする方法を解説します。以下のステップに沿って、さらに進化した変身動画を作成していきましょう。

変身動画作成の流れ(応用編)

  • プロンプト作成(Google AI Studio):指示書ビューワーとGoogle AI Studioを使って、変身前後の画像を生成するためのプロンプトを作成します。
  • 画像生成(Stable Diffusion):生成されたプロンプトをEasyForgeなどのStable Diffusion環境に入力し、変身前後の画像を生成します。
  • 中割画像生成(Stable Diffusion):Stable Diffusionのimg2imgとX・Y・Z plot機能を使い、変身前後の画像から複数の中割画像を生成します。
  • 変身動画作成(KLING AI):KLING AIのStart and End Frames機能を使い、変身前後の画像と中割画像から、より滑らかな変身動画を作成します。
  • アクション動画作成(KLING AI):KLING AIを使い、変身後のキャラクターが特定のアクションを行う動画を生成します。
  • 動画編集(CapCut):CapCut デスクトップ版で変身動画、アクション動画、テロップなどを組み合わせて、最終的な動画を作成します。

1. プロンプト作成(Google AI Studio)

基礎編と同様に、Google AI Studioを使用し、変身前と変身後の状態を表現するプロンプトを作成します。以下の指示書ビューワーを使って、必要な指示書を生成してください。(応用編では、基礎編で使用した指示書に加え、「変身前後プロンプト生成指示書 中割り」なども活用できます)

ビューワーの使い方:

  • ビューワーページを開き、パスワードを入力します。
  • 使いたい指示書があるタブ(例:「単独画像生成」内の「変身前後プロンプト生成指示書 中割り」など)を選択します。
  • 目的の指示書のアコーディオン(▼ ここをクリックして〜)を開きます。
  • フォームに必要な情報を入力し、「指示書をコピー」ボタンをクリックします。
  • コピーした指示書を、Google AI Studioのチャット欄に貼り付けて送信します。
  • Google AI Studio(Gemini)が指示書の内容を解析し、プロンプトを生成します。

※基礎編で作成したプロンプトを流用することも可能です。


2. 変身画像生成(Stable Diffusion)

ステップ1で生成したプロンプトを使い、EasyForgeやGoogle Colabなどの、Stable Diffusion環境で変身前後の画像を生成します。

EasyForgeの場合

EasyForgeを起動し、「txt2img」タブを開きます。Google AI Studioで生成したプロンプトを「Prompt」欄に貼り付け、以下の設定を行います。設定が完了したら、「Generate」ボタンをクリックして画像を生成します。

  • UI:FLUX
  • モデル:以下から選択
  • Sampling steps:モデルによって変動(モデルの推奨値を参照。不明な場合は20~30程度から調整)
  • Width・Height:以下から選択(9:16のアスペクト比)
    • 720x1280(PCスペックに自信がない場合)
    • 1080x1920(高画質。PCスペックに余裕がある場合)
  • その他設定:基本的にデフォルトのままでOK(必要に応じて微調整)

Google Colabの場合

Google Colabを使用してStable Diffusionで画像を生成する場合、本講座ではStable Diffusion Forgeを簡単にセットアップし、主要モデル(FLUX・Pony・SD1.5)を利用するための専用ノートブックと詳細ガイドを用意しています。以下のガイドページを参照し、環境構築と基本的な操作方法をご確認ください。

➡️ ColabでStable Diffusion Forgeを動かす:ノートブック設定&操作ガイドはこちら

上記のガイドに従ってセットアップが完了し、Stable Diffusion WebUI Forgeが起動したら、EasyForgeと同様にプロンプトを入力し、以下の設定を行い、変身前後の画像を生成します。

  • UI:FLUX
  • モデル:以下から選択
    • Flux.1-Dev Hyper NF4 (またはノートブック実行時に選択したモデル)
    • その他のモデル(CIVITAI等で好みのものを選択。モデル変更方法は後述)
  • Sampling steps:モデルによって変動
  • Width・Height:1080x1920(9:16のアスペクト比。GPU性能が低い場合は720x1280も選択可)
  • その他設定:基本的にデフォルトのままでOK(必要に応じて微調整)

モデルの変更方法(必要に応じて)

生成する画像のスタイルや表現の幅を広げるために、別のモデルを使用することも可能です。モデルを変更する場合は、以下のいずれかの方法で行います。

方法1:Google Colabのノートブック上で選択・ダウンロードする

  • ノートブック実行時の設定項目で、使用したいモデルにチェックを入れるか、CivitaiのモデルIDやURLを指定してダウンロードします。
  • ノートブック内の指示に従って、モデルを選択・ダウンロードしてください。

方法2:Stable Diffusion WebUI Forge起動後にCivitai browserで変更する方法

  1. Stable Diffusion WebUI Forgeを起動。
  2. Civitai browserを開く:
    • 画面上部のタブから「CivBrowser」タブを選択。
  3. モデルを検索・ダウンロード:
    • Civitai browser内で、使用したいモデルを検索。
    • モデルを見つけたら、ダウンロードボタンをクリックしてダウンロード。
  4. モデルを切り替え:
    • 画面上の「Checkpoint」のドロップダウンメニューから、ダウンロードしたモデルを選択。

Sampling stepsの調整(重要):モデルを変更した場合は、Sampling stepsの値を調整する必要があります。基本的には、モデルの推奨設定値(CIVITAIのモデルページに記載されていることが多い)に合わせるのがおすすめです。推奨値が不明な場合は、10〜30程度から試し、生成結果を見ながら調整してください。


3. 中割画像生成(Stable Diffusion)

Stable Diffusionのimg2imgとX・Y・Z plot機能を使い、変身前後の画像から複数の中割画像を生成します。中割画像とは、変身前と変身後の間の遷移状態を表現した画像で、これらを用いることでより滑らかな変身効果を実現できます。

手順:

  1. EasyForgeまたはGoogle ColabのStable Diffusion WebUI Forgeで、「img2img」タブを開きます。
  2. 変身後のプロンプトを「Prompt」欄に入力します。
  3. 変身前の画像を「img2img」タブの画像欄にドラッグ&ドロップします。
  4. 画像サイズの項目にある「Auto detect size from img2img」ボタンをクリックし、サイズを自動的に設定します。
  5. 画面下部の「Script」ドロップダウンメニューから、「X・Y・Z plot」を選択します。
  6. X typeを Denoising に設定します。
  7. X valuesに 0.7、0.8、0.85、0.9、1 と入力します。
  8. その他設定は基本的にデフォルトのままでOKですが、以下は必要に応じて調整してください。
    • Sampling steps:上述の通り、モデルに合わせて調整します。
    • ADetailer:顔や手のディテールを向上させる拡張機能です。
      • 基本的にはONで問題ありませんが、生成結果が不自然な場合や、特定のスタイルを追求したい場合はOFFにすることも検討してください。
      • ADetailerをONにする場合は、「ADetailer」タブを開き、「Enable this tab(1st)」にチェックを入れます。
      • 注意:ADetailerをONにすると、生成時間が長くなります。
  9. 「Generate」ボタンをクリックし、中割画像と変身後の画像を生成します。

参考動画:


4. 変身動画・中割動画作成(KLING AI)

KLING AIのStart and End Frames機能を使い、変身前後の画像と中割画像から、変身動画・中割動画を作成し、より滑らかな変身動画を作成します。

中割画像を複数枚使用する場合は、Start:変身前の画像、End:中割画像1 → Start:中割画像1、End:中割画像2 → Start:中割画像2、End:中割画像3 … というように、生成された中割画像を順番に繋いでいくことで、より自然で滑らかな変身動画を作成できます。

変身動画用のプロンプトは、以下の指示書ビューワーの「変身動画」タブ内にある指示書(例:「変身動画プロンプト生成指示書 KLING特化」など)を使って生成します。

各種設定

設定
Video Model KLING 1.6
Image Start:変身前の画像 or 中割画像、End:中割画像 or 変身後の画像
Prompt 指示書ビューワーで生成したプロンプトを使用。
Creativity & Relevance 調整(後述)
Mode Professional Mode
Duration 5s
Generating Counts 1
Negative Prompt (後述)

Creativity・Relevanceスライダーの調整

KLING AIのCreativity・Relevanceスライダーは、AIによる動画生成の解釈と、入力(テキストプロンプトおよびアップロードされた画像)への忠実度を調整するものです。変身動画の場合は、変身の度合いや表現したい内容に応じて、スライダーを調整します。スライダーは0から1の間の値を取り、0.05刻みで調整できます。

基本的な考え方:

  • 画像間の変化が小さい場合(例:同じ人物の表情変化、同じ妖怪のポーズ違いなど)、スライダーを右寄り(Relevanceを高め・0.7以上)に設定すると、より滑らかな動画が生成されやすくなります。
  • 変化の度合いが大きい場合(人間から動物など)や、よりダイナミックな動きを表現したい場合は、スライダーを中央付近、またはやや左寄り(0.4〜0.6程度)に設定することも検討してください。

設定例:

  • 滑らかな変身を最優先する場合:スライダーを0.7または0.8に設定します。
  • 少し動きに変化をつけたい場合、または変化の度合いが大きい場合:スライダーを0.5または0.6に設定します。
  • よりダイナミックな変身にしたい場合:スライダーを0.4に設定します。

スライダーの位置を変えて複数のテスト動画を生成し、比較検討することをおすすめします。

ネガティブプロンプト(例)

以下のネガティブプロンプトは、生成品質向上に役立つキーワードの例です。必要に応じて調整してください。

low quality, worst quality, lowres, blurry, distortion, animation, abstract, illustrations, computer-generated

5. アクション動画作成(KLING AI)

KLING AIを使い、変身後のキャラクターが特定のアクションを行う動画を生成します。

アクション動画用のプロンプトは、以下の指示書ビューワーの「アクション動画」タブ内にある指示書(例:「アクションプロンプト生成指示書 KLING特化アクション」など)を使って生成します。

各種設定

設定
Video Model KLING 1.6
Image 変身後の画像をアップロード
Prompt 指示書ビューワーで生成したプロンプトを使用。
Creativity & Relevance 調整(後述)
Mode Standard Mode または Professional Mode(後述)
Duration 5s
Generating Counts 1
Negative Prompt (後述)

Creativity・Relevanceスライダーの調整

基本的にはスライダーを右寄り(Relevanceを高め)に設定して、指示したアクションを忠実に再現することを優先させます。動きが不自然な場合は、スライダーを中央付近、またはやや左寄り(Creativityを少し高め)に設定して調整します。

設定例:

  • アクションを忠実に再現したい場合:スライダーを0.7または0.8に設定します。
  • 動きに変化や意外性を持たせたい場合:スライダーを0.5または0.6に設定します。(RelevanceとCreativityのバランスを考慮)

モード選択

KLING AIには、「Standard Mode」と「Professional Mode」の2つのモードがあります。アクションの内容や求める品質、およびクレジット消費量に応じて、適切なモードを選択してください。

  • Standard Mode:コスト効率が高く、高速な動画生成が可能です。人物、動物、および動きの激しいシーンの作成に適しています。(1回の生成につき20クレジットを消費)
  • Professional Mode:より詳細で高品質な動画生成が可能です。人物、動物、建築物、風景など、より豊かで洗練された構図と色調の動画を作成するのに適しています。(1回の生成につき35クレジットを消費)

モード選択の指針

  • 激しいアクション、動きの速いアクション:Standard Modeを選択します。
  • 細かな動き、複雑な背景、高画質を求める場合:Professional Modeを選択します。
  • クレジット消費を抑えたい場合:Standard Modeを選択します。
  • 判断に迷う場合は、まずStandard Modeで生成し、品質が十分でない場合にProfessional Modeを試すのがおすすめです。

ネガティブプロンプト(例)

変身動画作成時と同じものを使用します。(以下は例です。必要に応じて調整してください。)

low quality, worst quality, lowres, blurry, distortion, animation, abstract, illustrations, computer-generated

6. 動画編集(CapCut)

CapCut デスクトップ版で、KLING AIで生成した複数の変身動画と、中割動画、アクション動画、テロップなどを組み合わせて、最終的な動画を作成します。

手順:

  1. CapCutで新規プロジェクトを作成。
  2. 動画の配置と調整:
    • タイムラインに変身動画・中割動画・アクション動画を順番に配置します。
    • KLING AIで生成した動画の最後は、動きがない場合があるため、各動画の終わりを5フレームカットすると、動画がより滑らかに繋がります。
    • (必要に応じて)各動画の間に、対応する静止画を挿入します。静止画の表示時間は1~2秒程度が目安です。
  3. テロップの追加:
    • アクション動画の上に、妖怪の名前と説明をテロップとして配置します。
    • テロップのフォント、サイズ、色、表示位置などを調整し、動画の雰囲気に合わせます。
    • テロップにアニメーションやエフェクトを追加します。(フェードイン・フェードアウトに限らず、様々なアニメーションを試して、動画に合ったものを選びましょう)
  4. 動画内タイトルの挿入:
    • 動画の冒頭に、視聴維持率を高めるためのタイトルを挿入します。
    • タイトルの内容は、Google AI Studioなどを活用して作成します。(詳細は後述)
    • タイトルのフォント、サイズ、色、表示位置などを調整し、動画のテーマに合わせます。
    • 必要に応じて、タイトルにアニメーションやエフェクトを追加します。
  5. セーフゾーンの確認:
    • セーフゾーン確認画像をCapCutに読み込み、タイムラインの一番上に配置します。
    • セーフゾーン確認画像の不透明度を30%程度に設定します。これにより、下にある動画やテロップを確認しながら、セーフゾーン内に収まっているかを確認できます。
    • テロップやタイトルを作成・配置する際は、常にセーフゾーンを意識しましょう。
    • セーフゾーンからはみ出している場合は、位置を調整します。
    • 最終的に動画を書き出す前に、セーフゾーン確認画像のレイヤーを非表示にするか、削除するのを忘れないようにしてください。
  6. BGMの追加:
    • 動画の雰囲気に合ったBGMを追加します。
    • BGMの追加方法:
      • CapCutの楽曲ライブラリから選択:CapCutの「オーディオ」タブから「楽曲」を選択し、フィルターアイコンをクリックして「商用」を選択します。これにより、商用利用可能な楽曲のみが表示されます。表示された楽曲から好みのBGMを選びます。
      • 自身の素材を使用:PCに保存されている音楽ファイルをCapCutに読み込み、BGMとして使用します。(著作権に注意して、利用可能な楽曲を使用してください。)
    • BGMの音量調整:
      • 基本的な目安は-6dB程度です。0dBを超えると音割れが発生する可能性があるので注意が必要です。
      • 効果音がある場合は、効果音とBGMの音量バランスを調整します。効果音がBGMに埋もれてしまわないように、また、BGMが大きすぎて効果音が聞こえにくくならないように、注意深く調整してください。
    • 音楽の最後にフェードアウトを入れると、音が徐々に消えていくため、動画の終わりがより自然な印象になります。
    • BGMの冒頭に無音部分がある場合は、その部分をカットして、最初から音が鳴るように調整しましょう。
  7. エフェクトとフィルターの追加(任意):
    • 動画全体の雰囲気に合わせて、動画、静止画、テロップにエフェクトやフィルターを追加します。
    • フィルター:
      • 「4K」フィルターを使用すると、画質を向上させることができます。
      • CapCutの「フィルター」タブから、「4K」フィルターを選択し、適用します。
      • 必要に応じて、フィルターの濃度を調整します。
    • エフェクト:
      • エフェクトの種類や強さは、動画の内容や表現したい雰囲気に合わせて自由に選択・調整してください。
      • CapCutの「エフェクト」タブから、様々なエフェクトを試すことができます。
    • 自動調整:
      • 動画や静止画のクリップを選択し、「調整」タブから「自動調整」を適用すると、明るさ、コントラスト、彩度などが自動的に調整されます。
      • 特に暗い画像や、色味が薄い画像に有効です。
      • 自動調整を適用した後、好みに応じて「濃度」スライダーを調整し、効果の強さを変更できます。
  8. トランジションの追加:
    • 動画と動画の繋ぎ目に、トランジション効果を追加します。
      • おすすめのトランジション:効果線ズーム、ミックス、ぼやけトラバース、3つのスライスなど
      • トランジションの長さや種類を調整し、動画全体の流れをスムーズにします。
  9. 効果音の追加(任意):
    • 変身シーンやアクションシーンなどに、効果音を追加します。
    • CapCutの「オーディオ」タブから「サウンドエフェクト」を選択し、フィルターアイコンをクリックして「商用」を選択します。これにより、商用利用可能な効果音のみが表示されます。
    • 効果音の種類や音量を調整し、動画の臨場感を高めます。
  10. プレビューと最終調整:
    • 全画面プレビューで動画全体を確認します。
    • 変身動画、中割動画、アクション動画、テロップ、トランジション、エフェクト、フィルター、BGM、効果音などのバランスを最終調整します。
  11. エクスポート:
    • 動画をエクスポートします。
      • 推奨設定:
        • 名前:動画のファイル名を入力します。
        • 次にエクスポート:動画を保存する場所(フォルダ)を選択します。
        • 解像度:「1080p (1920x1080)」を選択します。
        • フォーマット:「MP4」を選択します。
        • フレームレート:「60fps」を選択します。
        • オプティカルフロー:表示があればONにします。

以上で、応用編のAI変身動画作成は完了です!

基礎編で学んだテクニックに加え、中割動画やアクション動画、様々なエフェクトやフィルターを駆使することで、より表現力豊かで魅力的な動画が完成したはずです。

今回作成した動画をSNSで共有したり、さらに別の妖怪で新たな変身動画を作成したりと、AI動画制作の世界をどんどん広げていきましょう!

もし、「もっと画質を良くしたい!」、「さらにクオリティの高い動画を作りたい!」という場合は、この後で解説する「さらなる高画質化のために」のセクションもぜひ参考にしてみてください。Stable Diffusionのアップスケーリング機能を活用することで、より高精細で美しい動画に仕上げることができます。

その他にも、さらに高度なテクニックや表現方法に興味があれば、他の応用編記事もぜひ参考にしてみてください。あなたのAI動画クリエイターとしてのスキルアップを応援しています!


さらなる高画質化のために

AI変身動画をさらに高画質化したい場合は、Stable Diffusionのアップスケーリング機能が有効です。この応用編では、720x1280(またはそれに準ずるサイズ)で生成した画像を、さらに高精細にする方法を解説します。

アップスケーリングの手順:

  1. 「Extras」タブを開く:Stable Diffusion Web UIの「Extras」タブを開きます。
  2. 画像を読み込む:720x1280(またはそれに準ずるサイズ)で生成した画像を「Single Image」または「Batch Process」タブにドラッグ&ドロップします(複数の画像をまとめて処理する場合は「Batch Process」を使用)。
  3. アップスケーラーを選択:「Upscaler 1」の項目で、適切なアップスケーラーを選択します。おすすめのアップスケーラーは、以下の「アップスケーラーの選択」を参照してください。
  4. 倍率を設定:この応用編では1.5倍を推奨します。「Resize」の数値を1.5に設定。
  5. GFPGANの設定(重要):「GFPGAN visibility」の数値を設定します。この数値は、顔の修復強度を調整するもので、特に人物がメインとなる変身動画では重要な設定です。
    • 基本は1を設定:多くの場合は、1を設定することで良好な結果が得られます。
    • 1:修復強度が最も高く、顔の細部(二重まぶた、唇など)が滑らかになります。ただし、場合によってはノイズが増加する可能性もあります。
    • 0.75:1と0.5の中間の選択肢です。顔の修復とノイズのバランスを取ります。
    • 0.5:修復が控えめなので、ノイズは少ないですが、顔の輪郭などの修正も弱くなります。
    • 0.1:修復が弱く、高画質ですが顔に違和感が残ることがあります。
    • 数値を変更したら必ず生成結果を確認:生成結果を確認し、ノイズが増えすぎていないか、顔の細部が不自然になっていないかなどを確認しながら、最適な数値を見つけてください。特に、目の二重や唇のラインなどが自然に見えるかどうかに注目しましょう。
  6. アップスケール実行:「Generate」ボタンをクリックして、アップスケーリングを実行します。

アップスケーラーの選択:

Stable Diffusion Web UIの「Extras」タブには、様々なアップスケーラーが用意されています。以下に代表的なものを紹介します。

  • 4x-UltraSharp:実写系、アニメ系のどちらにも対応できる汎用性の高いアップスケーラー。生成画像の特徴を維持しつつ、シャープでクリアな高解像度画像を生成できます。
  • R-ESRGAN 4x+:実写系の画像に適したアップスケーラー。汎用性が高く、自然な仕上がりが期待できます。
  • R-ESRGAN 4x+ Anime6B:アニメ調の画像に適したアップスケーラー。細部のシャープさを保ちつつ、滑らかな仕上がりが期待できます。
  • Lanczos:伝統的な画像補間アルゴリズムの一つ。高速ですが、シャープネス不足や細部がぼやける可能性あり。
  • SwinIR_4x:細部まで精細で、ノイズが少なく、アーティファクトが少ない高品質な画像を生成する能力があります。よりシャープな結果を求める場合や、画像の細部を重視する場合に適しています。

基本的には、4x-UltraSharp、R-ESRGAN 4x+、アニメ調の場合はR-ESRGAN 4x+ Anime6Bあたりをまず試してみて、生成結果や好みに合わせて選択するのがおすすめです。

バッチ処理(複数の画像をまとめてアップスケールする場合)

「Batch Process」タブを使用する場合は、アップスケールしたい複数の画像を、まとめて画像欄にドラッグ&ドロップします。その後、上記の設定を行い、「Generate」をクリックすると、まとめてアップスケール処理が行われます。

この手法を用いることで、より高精細で美しいAI変身動画を作成することが可能になります。ぜひ挑戦してみてください。


講座メニュー

広告