用語集 最終更新 2026.04.22

AIクローラー

AIクローラー は、生成AIやAI検索のためにWebページを取得する自動プログラムです。
検索エンジンのクローラーと似ていますが、AI検索での回答、引用、モデル改善、学習データ収集、ユーザーがAIツールで指定したURLの取得など、目的が複数あります。

まず押さえたいポイント

  • AI検索で回答や引用に使うためにページを取得することがある
  • モデル学習や改善のために公開ページを集めることがある
  • GPTBot、OAI-SearchBot、Google-Extended、PerplexityBot、CCBot などが代表例
  • robots.txt で許可・拒否の方針を書ける場合がある
  • ただし、すべてのBotが必ず robots.txt に従うとは限らない
  • 実務ではアクセスログ、User-Agent、頻度、IP帯、ステータスコードを確認する

Webサイト運用で見るところ

AIクローラーを見るときは、まずアクセスログで User-Agent、アクセスされたURL、ステータスコード、頻度を確認します。
たとえば、記事や用語集へ自然にアクセスしているのか、存在しないURLを大量に叩いているのか、短時間に過剰なリクエストを出しているのかで対応が変わります。

User-Agentだけで公式クローラーだと決めつけないことも大事です。
悪質なBotは名前を偽装できるため、必要に応じて公式IPレンジ、CDNWAFのBot判定、アクセスパターンも合わせて見ます。

robots.txtとの関係

robots.txt は、協力的なクローラーに対して、どのパスをクロールしてよいか、避けてほしいかを伝えるファイルです。
AIクローラーに対しても User-agent: GPTBotUser-agent: CCBot のように個別指定できる場合があります。

ただし、robots.txt はアクセス制御ではありません。
見られてはいけないページは、認証、権限、非公開化、サーバー側のアクセス制御で守る必要があります。

詳しくは、AIクローラーとは?Webサイト運用でログとrobots.txtを見る基本 で整理しています。