AIクローラー は、生成AIやAI検索のためにWebページを取得する自動プログラムです。
検索エンジンのクローラーと似ていますが、AI検索での回答、引用、モデル改善、学習データ収集、ユーザーがAIツールで指定したURLの取得など、目的が複数あります。
まず押さえたいポイント
- AI検索で回答や引用に使うためにページを取得することがある
- モデル学習や改善のために公開ページを集めることがある
- GPTBot、OAI-SearchBot、Google-Extended、PerplexityBot、CCBot などが代表例
- robots.txt で許可・拒否の方針を書ける場合がある
- ただし、すべてのBotが必ず robots.txt に従うとは限らない
- 実務ではアクセスログ、User-Agent、頻度、IP帯、ステータスコードを確認する
Webサイト運用で見るところ
AIクローラーを見るときは、まずアクセスログで User-Agent、アクセスされたURL、ステータスコード、頻度を確認します。
たとえば、記事や用語集へ自然にアクセスしているのか、存在しないURLを大量に叩いているのか、短時間に過剰なリクエストを出しているのかで対応が変わります。
User-Agentだけで公式クローラーだと決めつけないことも大事です。
悪質なBotは名前を偽装できるため、必要に応じて公式IPレンジ、CDNやWAFのBot判定、アクセスパターンも合わせて見ます。
robots.txtとの関係
robots.txt は、協力的なクローラーに対して、どのパスをクロールしてよいか、避けてほしいかを伝えるファイルです。
AIクローラーに対しても User-agent: GPTBot や User-agent: CCBot のように個別指定できる場合があります。
ただし、robots.txt はアクセス制御ではありません。
見られてはいけないページは、認証、権限、非公開化、サーバー側のアクセス制御で守る必要があります。
詳しくは、AIクローラーとは?Webサイト運用でログとrobots.txtを見る基本 で整理しています。