robots.txt は、検索エンジンやAIクローラーなどのBotに対して、サイト内のどのパスをクロールしてよいか、避けてほしいかを伝えるテキストファイルです。
通常はサイトのルートに置き、https://example.com/robots.txt のようなURLで公開されます。
まず押さえたいポイント
User-agentで対象のクローラーを指定するDisallowでクロールしてほしくないパスを指定するAllowでクロールを許可するパスを指定するSitemapでXMLサイトマップの場所を伝えられる- 検索結果から隠すための仕組みではない
- 秘密情報を守るためのアクセス制御でもない
noindexとの違い
robots.txt は、主に クロールしてよいか を伝えるファイルです。
一方、noindex は、ページを検索インデックスに入れないよう伝える指定です。
検索結果に出したくないページを robots.txt でブロックすると、クローラーがページ内の noindex を読めなくなることがあります。
そのため、検索結果に出したくないページは noindex、そもそも見られてはいけないページは認証やアクセス制御で守る、という分け方が大事です。
AIクローラーとの関係
robots.txt は、GPTBot、Google-Extended、PerplexityBot、CCBot のようなAI関連クローラーへの方針を書くときにも使われます。
ただし、robots.txt は協力的なクローラー向けの公開ルールであり、すべてのBotを強制的に止める防壁ではありません。
悪質なスクレイパーや身元を偽るBotまで考えるなら、サーバーログ、CDNやWAFのBot管理、レート制限、認証などもあわせて見る必要があります。
詳しくは、robots.txtとは?検索エンジンとAIクローラーに何を伝えるファイルなのか で整理しています。