Scrapy:爬虫類は403エラーを返します

615 ワード

Web python scrapy 爬虫類

に質問
データをキャプチャする場合、通常のデバッグ情報は次のとおりです.
DEBUG: Crawled (200) (referer: None)
表示される場合
DEBUG: Crawled (403) (referer: None)
Webサイトには、登り止めテクノロジーanti-web-crawling technique(Amazonで使用)が採用されており、ユーザーエージェント(User Agent)情報を簡単にチェックできることを示しています.
解決策
以下に示すように、リクエストヘッダにUser Agentを構築します.

    def start_requests(self):
        yield Request("http://www.techbrood.com/",
                      headers={'User-Agent': "your agent string"})

By Techbrood Co.

cdした後にlsするのはzshにやらせよう。zshは両手を広げ我々を迎え入れてくれる。

Salt-sshの一括ソース配置minion(14)