robot.txtってなに?
勉強前のイメージ
robot.txtってLBに入れたときの死活監視先のファイル的な存在のイメージ
robot.txt について調べてみた
robot.txtの概要
-
収集されたくないコンテンツをクロールされないように制御するファイル
- 検索エンジンのクローラーに自分のwebページにとって重要なコンテンツを中心にクロールさせることが出来る
そもそもクローラーとは
- 検索エンジンの仕組みの中の一部
- 現在の検索エンジンは、ロボット型検索エンジンで、仕組みには以下がある。
-
クローラー
: インターネット上でWebサイトのページ情報を収集する -
インデクサ
: 取得したコンテンツを解析しデータベースへ保存 -
クエリサーバ
: ユーザからの検索キーワードの結果ページを返す
-
robot.txtの役割
- 検索エンジンが勝手にwebページの中身を収集する際、収集されるファイルを制御すること
なぜファイルを制御する必要があるのか
クローリングする際(上記の仕組みでいうとインデクサ
の部分で)、
webサイトの全体を取得した時、テスト運用中のページやまだ内容がないコンテンツがあると検索結果に表示させる価値が低いwebサイトと認識され、検索エンジンで検索した際上位に表示されにくくなる
なので、上位に表示されるようにするため(SEOという)にファイルの制御を行う
robot.txtの書き方
クローラーの指定を行う
クローラには、Googlebot や Googlebot-Image など種類がある。
クローラーの指定を行う際の記述方法
- すべてのクローラーを指定
User-Agent:*
- Googleのクローラーを指定
User-agent: Googlebot
クロールの拒否を行う
クロールされるファイルの拒否を行う
拒否したいページや、ディレクトリのパスの記述方法
- ディレクトリの拒否
Disallow: /test/
- ページの拒否
Disallow: /test/test.html
- 全体の拒否
Disallow: /
クロールの許可を行う
クロールされるファイルの許可を行う
許可したいページや、ディレクトリのパスの記述方法
デフォルトで許可されているので、使う場面は少ないが
用途としては、ディレクトリの拒否を行った後、特定のファイルのみ許可を行いたい場合に記述する
- ページの許可
Disallow: /test/
Allow: /test/test.html
サイトマップを知らせる
サイトマップとは検索エンジンにwebページの認識を促すことができるファイル
重要なファイルをクロールさせるために使用
Sitemap:http://test.com/sitemap.xml
勉強後のイメージ
最初の LBに入れたときの死活監視先のファイル的な存在のイメージ とは違い、
.htaccessのAllow,Deny見たいなイメージ。
webページの構成なども検索の順位に関わると知った。
参考
Author And Source
この問題について(robot.txtってなに?), 我々は、より多くの情報をここで見つけました https://qiita.com/miyuki_samitani/items/8546327b00145dcffa6d著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .