robot.txtってなに?


勉強前のイメージ

robot.txtってLBに入れたときの死活監視先のファイル的な存在のイメージ

robot.txt について調べてみた

robot.txtの概要

  • 収集されたくないコンテンツをクロールされないように制御するファイル
    • 検索エンジンのクローラーに自分のwebページにとって重要なコンテンツを中心にクロールさせることが出来る

そもそもクローラーとは

  • 検索エンジンの仕組みの中の一部
  • 現在の検索エンジンは、ロボット型検索エンジンで、仕組みには以下がある。
    1. クローラー : インターネット上でWebサイトのページ情報を収集する
    2. インデクサ : 取得したコンテンツを解析しデータベースへ保存
    3. クエリサーバ : ユーザからの検索キーワードの結果ページを返す

robot.txtの役割

  • 検索エンジンが勝手にwebページの中身を収集する際、収集されるファイルを制御すること

なぜファイルを制御する必要があるのか

クローリングする際(上記の仕組みでいうとインデクサの部分で)、
webサイトの全体を取得した時、テスト運用中のページやまだ内容がないコンテンツがあると検索結果に表示させる価値が低いwebサイトと認識され、検索エンジンで検索した際上位に表示されにくくなる
なので、上位に表示されるようにするため(SEOという)にファイルの制御を行う

robot.txtの書き方

クローラーの指定を行う

クローラには、Googlebot や Googlebot-Image など種類がある。
クローラーの指定を行う際の記述方法

  • すべてのクローラーを指定
User-Agent:*
  • Googleのクローラーを指定
User-agent:  Googlebot

クロールの拒否を行う

クロールされるファイルの拒否を行う
拒否したいページや、ディレクトリのパスの記述方法

  • ディレクトリの拒否
Disallow:  /test/
  • ページの拒否
Disallow:  /test/test.html
  • 全体の拒否
Disallow:  /

クロールの許可を行う

クロールされるファイルの許可を行う
許可したいページや、ディレクトリのパスの記述方法
デフォルトで許可されているので、使う場面は少ないが
用途としては、ディレクトリの拒否を行った後、特定のファイルのみ許可を行いたい場合に記述する

  • ページの許可
Disallow:  /test/
Allow:  /test/test.html

サイトマップを知らせる

サイトマップとは検索エンジンにwebページの認識を促すことができるファイル
重要なファイルをクロールさせるために使用

Sitemap:http://test.com/sitemap.xml

勉強後のイメージ

最初の LBに入れたときの死活監視先のファイル的な存在のイメージ とは違い、
.htaccessのAllow,Deny見たいなイメージ。
webページの構成なども検索の順位に関わると知った。

参考