用語集 最終更新 2026.04.22

robots.txt

robots.txt は、検索エンジンやAIクローラーなどのBotに対して、サイト内のどのパスをクロールしてよいか、避けてほしいかを伝えるテキストファイルです。
通常はサイトのルートに置き、https://example.com/robots.txt のようなURLで公開されます。

まず押さえたいポイント

  • User-agent で対象のクローラーを指定する
  • Disallow でクロールしてほしくないパスを指定する
  • Allow でクロールを許可するパスを指定する
  • SitemapXMLサイトマップの場所を伝えられる
  • 検索結果から隠すための仕組みではない
  • 秘密情報を守るためのアクセス制御でもない

noindexとの違い

robots.txt は、主に クロールしてよいか を伝えるファイルです。
一方、noindex は、ページを検索インデックスに入れないよう伝える指定です。

検索結果に出したくないページを robots.txt でブロックすると、クローラーがページ内の noindex を読めなくなることがあります。
そのため、検索結果に出したくないページは noindex、そもそも見られてはいけないページは認証やアクセス制御で守る、という分け方が大事です。

AIクローラーとの関係

robots.txt は、GPTBot、Google-Extended、PerplexityBot、CCBot のようなAI関連クローラーへの方針を書くときにも使われます。
ただし、robots.txt は協力的なクローラー向けの公開ルールであり、すべてのBotを強制的に止める防壁ではありません。

悪質なスクレイパーや身元を偽るBotまで考えるなら、サーバーログ、CDNWAFのBot管理、レート制限、認証などもあわせて見る必要があります。

詳しくは、robots.txtとは?検索エンジンとAIクローラーに何を伝えるファイルなのか で整理しています。