最初に押さえたいこと
- AIクローラー は、生成AIやAI検索のためにWebページを取得する自動プログラムです。
- 検索インデックス用、AI検索の回答用、学習データ収集用、ユーザー操作に伴う取得用など、目的が分かれます。
- Webサイト運用では、まずアクセスログで User-Agent、URL、頻度、ステータスコード、IP帯を見ます。
- robots.txt は方針を伝える入口ですが、すべてのBotを強制停止する防壁ではありません。
AI検索や生成AIの普及で、Webサイト運用でも AIクローラーを許可するのか、止めるのか、ログでどう見るのか という話が増えました。
ただ、AIクローラーはひとまとめにするとかなり雑です。検索結果に引用されるための取得もあれば、モデル学習向けの収集もあり、ユーザーがAIツールでURLを開いたときの取得もあります。
この記事では、2026年4月22日時点で OpenAI、Google、Perplexity、Common Crawl、Cloudflare の公開情報を確認しながら、AIクローラーとは何か、Webサイト運用で ログ監視 と robots.txt をどう見ればよいかを整理します。
robots.txt の基本から確認したい場合は、robots.txtとは?検索エンジンとAIクローラーに何を伝えるファイルなのか を先に読むとつながりやすいです。
AIクローラーとは何か
AIクローラー は、生成AIやAI検索のためにWebページを取得する自動プログラムです。
検索エンジンのクローラーが検索インデックスを作るためにWebを巡回するのと同じように、AIクローラーも公開Webのページを取得します。
ただし、目的は1つではありません。
- AI検索で回答や引用に使う
- モデル学習や改善のために公開ページを集める
- ユーザーがAIツール内で指定したURLを取得する
- Web上の情報をインデックス化して検索可能にする
- データセット作成や研究用途で収集する
この目的の違いが大事です。
同じAI企業のクローラーでも、検索用 と 学習用 と ユーザー操作に伴う取得 で User-Agent や robots.txt の扱いが分かれることがあります。
代表的なAI関連クローラー
代表例をかなりざっくり整理すると、次のようになります。
| 名前 | 運営元 | 主な見方 | robots.txtで見る名前 |
|---|---|---|---|
| OAI-SearchBot | OpenAI | ChatGPT Searchなど検索・回答体験に関係するクローラー | OAI-SearchBot |
| GPTBot | OpenAI | OpenAIのモデル改善・学習側と関係するクローラー | GPTBot |
| Google-Extended | Gemini系の学習やグラウンディング用途に関する制御トークン | Google-Extended |
|
| PerplexityBot | Perplexity | Perplexityの検索・回答エンジン向けクローラー | PerplexityBot |
| CCBot | Common Crawl | 公開Webアーカイブ・データセット作成のためのクローラー | CCBot |
ここで注意したいのは、一覧を暗記することより、目的ごとにクローラーが分かれているかを公式ドキュメントで確認すること です。
たとえば OpenAI はクローラーの種類を公開し、OAI-SearchBot、GPTBot、ChatGPT-User などの違いを説明しています。Google も Google-Extended を、通常のGooglebotとは別の制御トークンとして案内しています。
ログでまず何を見るか
Webサイト運用でAIクローラーを見るなら、最初に見るのはアクセスログです。
サーバー、CDN、WAF、レンタルサーバーのアクセス解析など、どこで見られるかは環境によって違います。
まず見る項目は次の通りです。
| 見る項目 | 理由 | 例 |
|---|---|---|
| User-Agent | どのクローラーを名乗っているかを見る | GPTBot, PerplexityBot, CCBot |
| URL | どのページが取得されているかを見る | 記事、用語集、画像、検索結果ページなど |
| ステータスコード | 200、301、403、404、429など挙動を見る | ブロックできているか、エラーが増えていないか |
| 頻度 | 過剰アクセスや急増を見つける | 1分あたり、1時間あたり、日次 |
| IP・ASN | 公式に公開された範囲か、見慣れない経路かを見る | 公式IPレンジ、クラウド事業者、海外ASN |
User-Agentだけで断定しすぎないことも大事です。
User-Agentは名乗りなので、悪質なBotなら偽装できます。公式クローラーかどうかを見るには、公開IPレンジ、逆引き、CDNのVerified Bot判定、アクセスパターンなども合わせて見ます。
robots.txtで何を決めるか
robots.txt では、AIクローラーごとに許可・拒否の方針を書けます。
たとえば、検索エンジンの通常クロールは許可し、特定のAIクローラーだけ止めたいなら次のような形です。
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
一方、AI検索からの引用や回答で見つけられたいなら、OAI-SearchBot や PerplexityBot などを不用意に止めない判断もあります。
ここは AI学習に使われたくない と AI検索で引用されたい が衝突しやすいところです。
判断軸は次のように分けると見やすいです。
- AI検索で見つけられたいか
- モデル学習への利用を許容するか
- サーバー負荷が許容範囲か
- 有料コンテンツや会員向け情報が混ざっていないか
- 引用されるメリットと転載・要約されるリスクをどう見るか
AI検索時代のサイト案内という観点では、llms.txtとは?AI検索時代のWebサイト運用で何を指定するファイルなのか も近いですが、llms.txtは文脈案内、robots.txtはクロール方針です。役割は分けて見ます。
robots.txtだけでは足りない場面
robots.txt は協力的なクローラーに方針を伝える仕組みです。
しかし、すべてのBotが従うとは限りません。
Cloudflare は2025年8月、Perplexityについて、宣言済みのUser-Agentだけでなく未宣言のUser-AgentやIPを使い、robots.txtやネットワークレベルのブロックを回避するような挙動を観測したと公表しました。Perplexity側の見解とは対立がありますが、Webサイト運用者としては robots.txtに書いたら終わりではない と見た方が安全です。
実務では、次のように段階を分けます。
方針を伝える
robots.txt で許可・拒否の意思を明示します。協力的なクローラーにはまずここが入口になります。
実態を見る
アクセスログで User-Agent、頻度、ステータスコード、IP帯を見ます。急増や404連発は別で確認します。
負荷を抑える
公開範囲を整理する
見られて困る情報は robots.txt ではなく、認証、noindex、アクセス制御、公開停止で守ります。
リクエスト量を抑える考え方は、APIのレート制限とは?ログイン・Webhook・外部APIで必要になる理由 も参考になります。
小規模サイトならどう見るか
個人ブログや小規模な技術サイトなら、いきなりAIクローラーを全部ブロックするより、まずは観測から入る方が現実的です。
最初に見るなら、このくらいで十分です。
/robots.txtが意図通り公開されているか/sitemap.xmlが返っているか- アクセスログで AI系User-Agent が来ているか
- 404や500を大量に出していないか
- サーバー負荷や転送量が増えていないか
- ブロックしたいクローラーと許可したいクローラーを分けられるか
このサイトでは、現時点の robots.txt はかなりシンプルです。
User-agent: *
Allow: /
Sitemap: https://engineer-notes.net/sitemap.xml
つまり、全体を許可し、sitemap.xml の場所を伝える運用です。
もし将来、AIクローラーの負荷が目立つ、特定の用途を止めたい、引用されたいAI検索だけ残したい、という判断が出たら、ログを見ながら個別に調整する流れになります。
よくある誤解
AIクローラーは全部ブロックすべき?
一概には言えません。
AI検索からの流入や引用を期待するサイトなら、全部ブロックすると見つけられる機会を減らす可能性があります。
一方、有料記事、独自データ、転載リスクが大きいサイトでは、制限を強める判断もあります。
User-AgentにAI名がなければ安心?
安心とは言えません。
User-Agentは偽装できるため、ログではアクセスパターン、IP、頻度、参照先、CDNのBot判定も合わせて見ます。
robots.txtで止めれば情報は守れる?
守れません。
robots.txt は公開された方針表であり、アクセス制御ではありません。見られて困る情報は、認証や権限、非公開化で守ります。
AIクローラーを許可すれば必ず引用される?
これも保証ではありません。
本文の品質、内部リンク、構造化、更新性、サイト全体の信頼性も関係します。AI検索での見え方を意識するなら、LLMOとは?SEOとの違い・やるべきこと・誤解を徹底解説 もあわせて見ると整理しやすいです。
まとめ
AIクローラー は、生成AIやAI検索のためにWebページを取得する自動プログラムです。
OAI-SearchBot、GPTBot、Google-Extended、PerplexityBot、CCBot など、目的や運営元ごとに種類が分かれます。
Webサイト運用では、まずアクセスログで User-Agent、URL、ステータスコード、頻度、IP帯を見ます。
そのうえで、robots.txt で方針を伝え、必要なら CDN、WAF、レート制限、認証で補います。
AIクローラー対応は、全部許可 か 全部拒否 の二択ではありません。
AI検索で見つけられたいのか、学習利用を避けたいのか、サーバー負荷を抑えたいのかを分けて、ログを見ながら調整するのが実務ではいちばん堅実です。
参考
- OpenAI Platform: Overview of OpenAI Crawlers
- Google Search Central: Google crawlers and fetchers
- Perplexity Docs: Perplexity Crawlers
- Perplexity Help Center: How does Perplexity follow robots.txt?
- Common Crawl: CCBot
- Cloudflare Blog: Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives