Scrapy:爬虫類は403エラーを返します


に質問
データをキャプチャする場合、通常のデバッグ情報は次のとおりです.
DEBUG: Crawled (200) (referer: None)
表示される場合
DEBUG: Crawled (403) (referer: None)
Webサイトには、登り止めテクノロジーanti-web-crawling technique(Amazonで使用)が採用されており、ユーザーエージェント(User Agent)情報を簡単にチェックできることを示しています.
解決策
以下に示すように、リクエストヘッダにUser Agentを構築します.
    def start_requests(self):
        yield Request("http://www.techbrood.com/",
                      headers={'User-Agent': "your agent string"})

By Techbrood Co.