Webクローラ「Heritrix」のロボット排除プロトコル(REP)について
はじめに
クローラを使うとき、「ロボット排除プロトコル」を必ず意識しなければなりません。
ということで、
Heritrix のロボット排除プロトコルについて、ドキュメント内の記述を探してみることに。
ロボット排除プロトコルとは?
参考まで。
ロボット排除プロトコル(REP)とは?――メタタグやrobots.txtの基礎
Heritrix のロボット排除プロトコル
おもいっきりトップページに記述があった。大事なことだから、そりゃそうか。
Heritrix - Heritrix - IA Webteam Confluence
https://webarchive.jira.com/wiki/display/Heritrix/Heritrix#Heritrix-Webmasters!
以下、引用と翻訳。
Webmasters!
Heritrix is designed to respect the robots.txt exclusion directives and META robots tags,
and collect material at a measured, adaptive pace unlikely to disrupt normal website activity.
ウェブマスターのみなさん!
Heritrix は robots.txt が指示する除外ページやメタタグ(REPタグ)を尊重するよう設計されています。
そして、一定でかつ、一般的なウェブサイトの活動を邪魔することがないように適応したペースで資料を集めます。
ロボット排除プロトコルに、ちゃんと対応していることが確認できました。
ちゃんちゃん。
おわり。
Author And Source
この問題について(Webクローラ「Heritrix」のロボット排除プロトコル(REP)について), 我々は、より多くの情報をここで見つけました https://qiita.com/megu_ma/items/0ac4d7c534f60b5dacb5著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .