Lesson 02:外部データの安全な収集 — Premium
LESSON 02

外部データの安全な収集

専用ツール「Web-Utility-Tool」の使い方を学び、競合・顧客のWebサイトからAIが使えるテキストデータを安全に抽出します。

Step 1:なぜ「専用ツール」を使うのか

「AIに競合のホームページを調べさせればいいんじゃないの?」と思うかもしれません。でも、それには大きなリスクがあります。

⚠️ AIに直接ネットを見せてはいけない理由

AIがブラウザを直接操作すると、例えばGoogleアカウントにログインした状態でブラウジングした場合、そのセッション情報がAIの処理に含まれる可能性があります。意図せず個人情報や顧客情報が漏れるリスクがあります。

💡 本講座の解決策:人間がデータを取り出してからAIに渡す

専用の「Web-Utility-Tool」でテキストだけを安全に抽出し、そのテキストファイルをAIに読み込ませます。AIはインターネットに直接アクセスしないため、情報漏洩のリスクがゼロになります。

Step 2:Web-Utility-Toolを起動する

💡 セットアップは Lesson 01 で完了済みです

Web-Utility-Toolのセットアップ(初回インストール)はLesson 01のStep 5で実施しました。このLessonからはすぐにツールを起動して使い始められます。

Antigravityに以下のように話しかけてください:

Web-Utility-Toolを起動して。

Antigravityが _run_gui.bat を実行し、ツールの画面が開きます。起動したら以下のような画面が表示されます。

Web-Utility-Tool by OKIHIRO
機能選択
Webページスナップショット
URLから本文テキストを抽出 ← 単品抽出
サイト全体コンテキスト抽出 ← 一括抽出
https://example.com/service/
[SUCCESS] テキスト抽出完了
保存先: output/extracted_texts/20260314_example_com.txt

Step 3:モードA — 単品ページの抽出(1ページだけ)

1つのページだけのテキストを取り出したいときに使います。例えば「競合他社の料金ページ」「顧客のトップページ」など、特定のURLを1つ指定して抽出します。

操作手順

  1. URLから本文テキストを抽出」を選択する(ラジオボタン)
  2. 「対象URL」欄に、取得したいページのURLをコピー&ペーストする
    例:https://example.com/service/gaiheki/
  3. 「実行開始」ボタンを押す
  4. 「SUCCESS」と表示されたら完了。保存先が画面に表示される
💡 何が取り出されるのか?

広告バナー・ナビゲーションメニュー・フッターリンクなどの「本文以外の余計な部分」は自動的に除去され、ページの「本文テキストだけ」がテキストファイルとして保存されます。

✅ 保存先の確認

抽出されたテキストファイルは Web-Utility-Tool/output/extracted_texts/ フォルダに保存されます。このファイルを次のLesson 03でAIの「顧客データ」として使います。

Step 4:モードB — 一括抽出(サイト全体)

ブログ記事が10本ある・サービスページが複数ある、といったサイト全体の情報を一度に取り込みたいときに使います。

💡 「階層」とは何か?(ここが分かりにくいポイント)

Webサイトは「階層(フロア)」で構成されています。トップページが1階で、そこからリンクされたページが2階、さらにそこからリンクされたページが3階…という構造です。「最大取得ページ数」で、何ページまで辿るかを制限できます。

階層の深さのイメージ

最大10ページ トップ + 主要ページのみ取得。初回・小規模サイト向け。
最大50ページ(推奨) サービスページ・会社概要・施工事例などを広く取得。通常はこれで十分。
最大100ページ以上 ブログ記事が大量にある場合など。時間がかかるため必要な場合のみ。

操作手順

  1. サイト全体コンテキスト抽出」を選択する(ラジオボタン)
  2. 「最大取得ページ数」を設定する。初めてなら 50 にしておくのが無難
  3. 「対象URL」欄に、サイトのトップページURLを入力する
    例:https://example.com/(最後のスラッシュを忘れずに)
  4. 「実行開始」ボタンを押す。画面にリアルタイムで進捗が表示される
  5. 「SUCCESS 完了: ◯件のファイルを保存しました」と表示されたら完了
✅ 保存先の確認

一括抽出の結果は Web-Utility-Tool/output/extracted_site_contexts/[日時_ドメイン名]/ フォルダにまとめて保存されます。このフォルダごと次のLesson 03の作業で使います。

このレッスンのまとめ

Lesson 02 で習得したこと

  • AIに直接ネットを見せてはいけない理由
  • AntigravityにWeb-Utility-Toolをセットアップ・起動させる方法
  • 単品抽出(1ページ)と一括抽出(サイト全体)の操作手順
  • 抽出データの保存場所と次のステップへの引き渡し方

次のLesson 03では、ここで取り出したテキストをAIが使える「顧客専用データ(ビジネスDNA)」に変換する方法を学びます。