はじめに:いよいよ錬金術の実践!Stable Diffusionを動かしてみよう
基礎編では、AIアシスタントの育成と、AIに「伝わる」プロンプト作成の技術を学びました。準備は万端です!いよいよこの「実践編1」から、錬金術の核となるStable Diffusionを実際に操作し、あなたの手で動画編集素材を生み出すプロセスに入っていきます。
このセクションのゴールは、Stable Diffusionの基本的な操作方法(txt2img)をマスターし、基礎編で学んだプロンプト作成術を活かして、実際に背景、テロップベース、キャラクターといった基本的な動画編集素材を生成できるようになることです。
最初は思った通りの画像が出なくても大丈夫。試行錯誤こそが錬金術師への道です。まずは気軽に、AIとの対話を楽しむ感覚で始めてみましょう!
Stable Diffusion Web UIの基本画面と操作フロー (txt2img)
Stable Diffusionを実行すると、Webブラウザ上に操作画面(Web UI - User Interface)が表示されます。(EasyForge、Google Colabどちらで起動しても、基本的なインターフェースは共通です)まずは、テキストから画像を生成する「txt2img」タブの主要な画面要素と、基本的な操作の流れを把握しましょう。
主要な画面要素
- Stable Diffusion checkpoint (モデル選択):画面左上。ここで使用するAIモデル(学習済みデータ)を選びます。モデルによって生成される画像の画風や得意なものが大きく変わります。
- Prompt (プロンプト入力欄):ここに、生成したい画像の内容を指示するテキスト(ポジティブプロンプト)を入力します。
- Negative prompt (ネガティブプロンプト入力欄):ここに、生成してほしくない要素を指示するテキスト(ネガティブプロンプト)を入力します。
- Generate (生成ボタン):このオレンジ色の大きなボタンをクリックすると、画像生成が開始されます。
- 画像表示エリア:画面右側。生成された画像がここに表示されます。生成履歴も確認できます。
- パラメータ設定エリア:プロンプト入力欄の下。Sampling method, Sampling steps, Width, Height, CFG Scale, Seedなど、画像生成の細かな設定を行う項目が並んでいます。(詳細は後述)
基本的な操作フロー (txt2img)
テキストから画像を生成する際の基本的な流れは以下の通りです。
- モデルを選択する:「Stable Diffusion checkpoint」で使用したいモデルを選びます。
- プロンプトを入力する:基礎編2で作成した、またはAIアシスタントに生成させたポジティブプロンプトを「Prompt」欄に貼り付けます。
- ネガティブプロンプトを入力する:同様に、ネガティブプロンプトを「Negative prompt」欄に貼り付けます。(FLUXモデルでは通常空欄でOK)
- 主要パラメータを設定する:Width, Height, Sampling steps, CFG Scaleなどを設定します。(後述)
- 生成ボタンをクリックする:「Generate」ボタンを押して、AIに画像を生成させます。
- 結果を確認する:画像表示エリアに生成された画像を確認します。
- (必要に応じて)調整・再生成:結果がイメージと異なる場合は、プロンプトやパラメータを調整し、再度「Generate」ボタンをクリックします。
主要パラメータ解説:素材生成で意識したい設定
Stable Diffusionには多くの設定項目がありますが、まずは以下の主要なパラメータの意味と、動画素材生成における基本的な考え方を理解しましょう。
- Sampling method (サンプリング方法):AIがノイズから画像を生成していく過程の計算方法です。様々な種類がありますが、迷ったら「DPM++ 2M Karras」や「Euler a」あたりが、比較的高品質な画像を高速に生成できる傾向があり、おすすめです。モデルによっては推奨される方法が指定されている場合もあります。
- Sampling steps (サンプリングステップ数):画像を生成する計算の回数です。値を大きくするほど高画質になる傾向がありますが、一定以上増やすと効果が薄れ、生成時間だけが増加します。一般的には20〜40程度で十分な場合が多いです。これもモデルによって推奨値が異なります。
-
Width & Height (幅と高さ):生成する画像のサイズ(ピクセル数)です。動画編集で使う場合は、一般的な動画のアスペクト比に合わせるのが基本です。
(※最初から高解像度で生成すると、PCへの負荷が高くなったり、構図が破綻しやすくなったりすることがあります。まずは小さめのサイズで生成し、良いものができたら後で高解像度化する(応用編で解説)という方法も有効です。)
- 横長動画 (16:9) 用素材:例)1280 x 720, 1920 x 1080
- 縦長動画 (9:16) 用素材:例)720 x 1280, 1080 x 1920
- CFG Scale (Guidance Scale):プロンプトにどれだけ忠実に画像を生成するかの度合いです。値を高くするとプロンプトに従いやすくなりますが、上げすぎると不自然になったり破綻したりします。一般的には5〜9程度がバランスが良いとされています。
- Seed (シード値):画像生成の基になる乱数値です。「-1」に設定すると毎回ランダムな画像が生成されます。特定の画像の構図や雰囲気を維持したまま、プロンプトを少し変えてバリエーションを作りたい場合は、その画像のSeed値をコピーして入力欄に貼り付け、固定して使います。
- Batch count / Batch size (バッチカウント・バッチサイズ):一度に生成する画像の枚数を設定します。Batch countは指定した枚数を順番に生成、Batch sizeは複数枚を並行して(VRAMに余裕があれば)生成します。アイデア出しなどで複数パターン見たい場合に便利です。
【最重要ポイント】これらのパラメータの「正解」は一つではありません! 使用するモデル、プロンプトの内容、そしてあなたの目指す表現によって、最適な値は常に変化します。マニュアル通りに設定するだけでなく、実際に値を変更しながら生成結果を比較し、試行錯誤することが、Stable Diffusionを使いこなす上で最も重要です。AIアシスタントに「このプロンプトでCFG Scaleを変えたらどうなるか試したい」のように相談しながら進めるのも良いでしょう。
実践ワーク:素材別生成テクニックを試してみよう!
それでは、基礎編2で学んだ素材別のヒントと、上記パラメータを参考に、実際に動画編集で使える素材を生成してみましょう!
1. 背景素材を生成する
まずは動画の背景となる画像を生成します。基礎編2で作成したプロンプト、またはレベル1指示書を使って生成したプロンプトを使用しましょう。より詳細な項目(場所の種類、時間帯、天気、雰囲気など)を指定して高品質なプロンプトを作成したい場合は、「【AI素材錬金術】指示書セット」のレベル2「背景特化」指示書の活用もおすすめです。(使い方はレッスン4.5を参照)
- プロンプト準備:AIアシスタントと相談し、欲しい背景のプロンプト(例:未来都市、静かな森、和室など)を作成します。雰囲気、時間帯、構図などを具体的に。ネガティブプロンプトも設定します(例:person, people を入れて人物を除外)。
- モデル選択:背景生成に適したモデル(風景が得意なモデル、特定の画風のモデルなど)を選択します。
- パラメータ設定:WidthとHeightを動画のアスペクト比に合わせます(例:1280x720)。Sampling steps(例:30)、CFG Scale(例:7)などを設定します。
- 生成&試行錯誤:Generateボタンをクリック。生成結果を見て、イメージと違う場合はプロンプトにキーワードを追加・変更したり、CFG ScaleやSeedを変えたりして、理想の背景に近づけていきます。
2. テロップベース・装飾素材を生成する
次に、テロップの背景や動画の飾り付けに使える素材を生成します。デザイン要素(形状、質感、色、スタイルなど)を細かく指定したい場合は、レベル2「テロップ・UI特化」指示書を使うと効率的です。(使い方はレッスン4.5を参照)
- プロンプト準備:AIアシスタントと相談し、欲しいデザインのプロンプト(例:シンプルな青いグラデーションの長方形、金色の豪華なフレーム、歯車モチーフのアイコン)を作成します。形状、質感、色を具体的に。ネガティブプロンプトで「text, letters, words」などを指定し、不要な文字が入らないようにします。
- モデル選択:デザイン系やフラットな表現が得意なモデルがあれば選択します(デフォルトモデルでも可)。
- パラメータ設定:Width, Heightは正方形(例:1024x1024)で生成して後で加工することも多いです。他は背景と同様に設定。
- 生成&試行錯誤:Generate。「simple, minimalist」などのキーワードでシンプルさを調整したり、「metallic, glossy」で質感を調整したりします。(※透過背景の直接生成は難しい場合が多いので、白背景などで生成し、後で編集ソフトや別ツールで切り抜くのが一般的です。)
3. キャラクター・オブジェクト素材を生成する
動画に登場させたいキャラクターや小物の画像を生成します。特定のキャラクター属性(髪型、服装、表情、ポーズなど)を詳細に指定したい場合は、レベル2「キャラクター特化」指示書が非常に役立ちます。(使い方はレッスン4.5を参照)
- プロンプト準備:AIアシスタントと相談し、キャラクターの属性(性別、髪型、服装、表情、ポーズ)やオブジェクトの詳細を具体的に記述したプロンプトを作成します。画風(anime style, realisticなど)も指定。
- モデル選択:キャラクター生成が得意なモデル(アニメ系、リアル系など)を選択します。
- パラメータ設定:Width, Heightを調整(全身なら縦長、バストアップなら少し横長など)。他は背景と同様に設定。
- 生成&試行錯誤:Generate。表情やポーズを変えたい場合は、Seed値を固定してプロンプトの該当部分だけを微調整すると、キャラクターの一貫性を保ちやすくなります。(※顔が崩れる場合は、ネガティブプロンプトの調整や、次の実践編2で学ぶControlNetでの制御が有効です。)
生成結果の保存と管理:錬金術の記録を残そう
良い素材が生成できたら、忘れずに保存し、後で使いやすいように整理しておきましょう。
- 画像の保存方法:Web UIの画像表示エリアにある保存ボタン(フロッピーディスクアイコンなど)をクリックするか、生成された画像が自動保存されるフォルダ(通常は outputs/txt2img-images など)から直接コピーします。
- ファイル名の工夫(推奨):後で「この画像、どうやって生成したんだっけ?」とならないように、ファイル名に生成に使ったプロンプトの主要キーワードやSeed値などを含めておくと便利です。Web UIの設定でファイル名のパターンを変更できる場合もあります。
- フォルダ分けによる整理:準備編で推奨したように、PC内に「背景」「キャラクター」「テロップ」など、素材の種類ごとにフォルダを作成し、生成した画像を分類して保存しましょう。
まとめと次のステップ:基本をマスター、次は精密制御へ
お疲れ様でした!この「実践編1」では、Stable Diffusionの基本的な操作を学び、実際に様々な動画編集素材を生成するプロセスを体験しました。
- Stable Diffusion Web UIの基本画面と操作フロー(txt2img)を理解した。
- Sampling steps, CFG Scale, Seedなどの主要パラメータの意味と基本的な使い方を学んだ。
- AIアシスタントと協力しながらプロンプトを作成し、背景、テロップ、キャラクターといった素材を実際に生成するワークを実践した。
- パラメータ調整やプロンプト修正による試行錯誤の重要性を体感した。
- 生成した画像の保存と管理方法を学んだ。
txt2imgとプロンプト、パラメータ調整だけでも多様な素材を生成できますが、時には「キャラクターのポーズを完全に固定したい」「この構図のまま画風だけ変えたい」といった、より精密なコントロールが必要になる場面が出てきます。
次の「6. 実践編2:ControlNet徹底活用!動画素材を意のままに操る」では、まさにそのための強力な武器、「ControlNet」の使い方を徹底的に学び、あなたの素材生成スキルをさらに上のレベルへと引き上げます!精密な錬金術の世界へ進みましょう!