Lesson 02：外部データの安全な収集 — Premium

LESSON 02

外部データの安全な収集

専用ツール「Web-Utility-Tool」の使い方を学び、競合・顧客のWebサイトからAIが使えるテキストデータを安全に抽出します。

Step 1：なぜ「専用ツール」を使うのか

「AIに競合のホームページを調べさせればいいんじゃないの？」と思うかもしれません。でも、それには大きなリスクがあります。

⚠️ AIに直接ネットを見せてはいけない理由

AIがブラウザを直接操作すると、例えばGoogleアカウントにログインした状態でブラウジングした場合、そのセッション情報がAIの処理に含まれる可能性があります。意図せず個人情報や顧客情報が漏れるリスクがあります。

💡 本講座の解決策：人間がデータを取り出してからAIに渡す

専用の「Web-Utility-Tool」でテキストだけを安全に抽出し、そのテキストファイルをAIに読み込ませます。AIはインターネットに直接アクセスしないため、情報漏洩のリスクがゼロになります。

Step 2：Web-Utility-Toolを起動する

💡 セットアップは Lesson 01 で完了済みです

Web-Utility-Toolのセットアップ（初回インストール）はLesson 01のStep 5で実施しました。このLessonからはすぐにツールを起動して使い始められます。

Antigravityに以下のように話しかけてください：

Web-Utility-Toolを起動して。

Antigravityが _run_gui.bat を実行し、ツールの画面が開きます。起動したら以下のような画面が表示されます。

Web-Utility-Tool by OKIHIRO

機能選択

Webページスナップショット

URLから本文テキストを抽出 ← 単品抽出

サイト全体コンテキスト抽出 ← 一括抽出

対象URL

https://example.com/service/

[SUCCESS] テキスト抽出完了
保存先: output/extracted_texts/20260314_example_com.txt

Step 3：モードA — 単品ページの抽出（1ページだけ）

1つのページだけのテキストを取り出したいときに使います。例えば「競合他社の料金ページ」「顧客のトップページ」など、特定のURLを1つ指定して抽出します。

操作手順

「URLから本文テキストを抽出」を選択する（ラジオボタン）
「対象URL」欄に、取得したいページのURLをコピー&ペーストする
例：https://example.com/service/gaiheki/
「実行開始」ボタンを押す
「SUCCESS」と表示されたら完了。保存先が画面に表示される

💡 何が取り出されるのか？

広告バナー・ナビゲーションメニュー・フッターリンクなどの「本文以外の余計な部分」は自動的に除去され、ページの「本文テキストだけ」がテキストファイルとして保存されます。

✅ 保存先の確認

抽出されたテキストファイルは Web-Utility-Tool/output/extracted_texts/ フォルダに保存されます。このファイルを次のLesson 03でAIの「顧客データ」として使います。

Step 4：モードB — 一括抽出（サイト全体）

ブログ記事が10本ある・サービスページが複数ある、といったサイト全体の情報を一度に取り込みたいときに使います。

💡 「階層」とは何か？（ここが分かりにくいポイント）

Webサイトは「階層（フロア）」で構成されています。トップページが1階で、そこからリンクされたページが2階、さらにそこからリンクされたページが3階…という構造です。「最大取得ページ数」で、何ページまで辿るかを制限できます。

階層の深さのイメージ

最大10ページトップ + 主要ページのみ取得。初回・小規模サイト向け。

最大50ページ（推奨）サービスページ・会社概要・施工事例などを広く取得。通常はこれで十分。

最大100ページ以上ブログ記事が大量にある場合など。時間がかかるため必要な場合のみ。

操作手順

「サイト全体コンテキスト抽出」を選択する（ラジオボタン）
「最大取得ページ数」を設定する。初めてなら 50 にしておくのが無難
「対象URL」欄に、サイトのトップページURLを入力する
例：https://example.com/（最後のスラッシュを忘れずに）
「実行開始」ボタンを押す。画面にリアルタイムで進捗が表示される
「SUCCESS 完了: ◯件のファイルを保存しました」と表示されたら完了

✅ 保存先の確認

一括抽出の結果は Web-Utility-Tool/output/extracted_site_contexts/[日時_ドメイン名]/ フォルダにまとめて保存されます。このフォルダごと次のLesson 03の作業で使います。

このレッスンのまとめ

Lesson 02 で習得したこと

AIに直接ネットを見せてはいけない理由
AntigravityにWeb-Utility-Toolをセットアップ・起動させる方法
単品抽出（1ページ）と一括抽出（サイト全体）の操作手順
抽出データの保存場所と次のステップへの引き渡し方

次のLesson 03では、ここで取り出したテキストをAIが使える「顧客専用データ（ビジネスDNA）」に変換する方法を学びます。

🏠 ポータルへ戻る ← Lesson 01へ戻る

Lesson 03：顧客データの「脳」化へ →

Step 1：なぜ「専用ツール」を使うのか

Step 2：Web-Utility-Toolを起動する

Step 3：モードA — 単品ページの抽出（1ページだけ）

操作手順

Step 4：モードB — 一括抽出（サイト全体）

階層の深さのイメージ

操作手順

このレッスンのまとめ

Lesson 02 で習得したこと

無料チャットマガジン