外部データの安全な収集
専用ツール「Web-Utility-Tool」の使い方を学び、競合・顧客のWebサイトからAIが使えるテキストデータを安全に抽出します。
Step 1:なぜ「専用ツール」を使うのか
「AIに競合のホームページを調べさせればいいんじゃないの?」と思うかもしれません。でも、それには大きなリスクがあります。
AIがブラウザを直接操作すると、例えばGoogleアカウントにログインした状態でブラウジングした場合、そのセッション情報がAIの処理に含まれる可能性があります。意図せず個人情報や顧客情報が漏れるリスクがあります。
専用の「Web-Utility-Tool」でテキストだけを安全に抽出し、そのテキストファイルをAIに読み込ませます。AIはインターネットに直接アクセスしないため、情報漏洩のリスクがゼロになります。
Step 2:Web-Utility-Toolを起動する
Web-Utility-Toolのセットアップ(初回インストール)はLesson 01のStep 5で実施しました。このLessonからはすぐにツールを起動して使い始められます。
Antigravityに以下のように話しかけてください:
Antigravityが _run_gui.bat を実行し、ツールの画面が開きます。起動したら以下のような画面が表示されます。
保存先: output/extracted_texts/20260314_example_com.txt
Step 3:モードA — 単品ページの抽出(1ページだけ)
1つのページだけのテキストを取り出したいときに使います。例えば「競合他社の料金ページ」「顧客のトップページ」など、特定のURLを1つ指定して抽出します。
操作手順
- 「URLから本文テキストを抽出」を選択する(ラジオボタン)
- 「対象URL」欄に、取得したいページのURLをコピー&ペーストする
例:https://example.com/service/gaiheki/ - 「実行開始」ボタンを押す
- 「SUCCESS」と表示されたら完了。保存先が画面に表示される
広告バナー・ナビゲーションメニュー・フッターリンクなどの「本文以外の余計な部分」は自動的に除去され、ページの「本文テキストだけ」がテキストファイルとして保存されます。
抽出されたテキストファイルは Web-Utility-Tool/output/extracted_texts/ フォルダに保存されます。このファイルを次のLesson
03でAIの「顧客データ」として使います。
Step 4:モードB — 一括抽出(サイト全体)
ブログ記事が10本ある・サービスページが複数ある、といったサイト全体の情報を一度に取り込みたいときに使います。
Webサイトは「階層(フロア)」で構成されています。トップページが1階で、そこからリンクされたページが2階、さらにそこからリンクされたページが3階…という構造です。「最大取得ページ数」で、何ページまで辿るかを制限できます。
階層の深さのイメージ
操作手順
- 「サイト全体コンテキスト抽出」を選択する(ラジオボタン)
- 「最大取得ページ数」を設定する。初めてなら 50 にしておくのが無難
- 「対象URL」欄に、サイトのトップページURLを入力する
例:https://example.com/(最後のスラッシュを忘れずに) - 「実行開始」ボタンを押す。画面にリアルタイムで進捗が表示される
- 「SUCCESS 完了: ◯件のファイルを保存しました」と表示されたら完了
一括抽出の結果は Web-Utility-Tool/output/extracted_site_contexts/[日時_ドメイン名]/
フォルダにまとめて保存されます。このフォルダごと次のLesson 03の作業で使います。
このレッスンのまとめ
Lesson 02 で習得したこと
- AIに直接ネットを見せてはいけない理由
- AntigravityにWeb-Utility-Toolをセットアップ・起動させる方法
- 単品抽出(1ページ)と一括抽出(サイト全体)の操作手順
- 抽出データの保存場所と次のステップへの引き渡し方
次のLesson 03では、ここで取り出したテキストをAIが使える「顧客専用データ(ビジネスDNA)」に変換する方法を学びます。