robots.txtとは？クローラーにクロール方針を伝えるファイルを解説

robots.txt

robots.txt は、検索エンジンやAIクローラーなどのBotに対して、サイト内のどのパスをクロールしてよいか、避けてほしいかを伝えるテキストファイルです。
通常はサイトのルートに置き、https://example.com/robots.txt のようなURLで公開されます。

まず押さえたいポイント

robots.txt は、主に クロールしてよいか を伝えるファイルです。
一方、noindex は、ページを検索インデックスに入れないよう伝える指定です。

検索結果に出したくないページを robots.txt でブロックすると、クローラーがページ内の noindex を読めなくなることがあります。
そのため、検索結果に出したくないページは noindex、そもそも見られてはいけないページは認証やアクセス制御で守る、という分け方が大事です。

robots.txt は、GPTBot、Google-Extended、PerplexityBot、CCBot のようなAI関連クローラーへの方針を書くときにも使われます。
ただし、robots.txt は協力的なクローラー向けの公開ルールであり、すべてのBotを強制的に止める防壁ではありません。

悪質なスクレイパーや身元を偽るBotまで考えるなら、サーバーログ、CDNやWAFのBot管理、レート制限、認証などもあわせて見る必要があります。