Scrapy:爬虫類は403エラーを返します
に質問
データをキャプチャする場合、通常のデバッグ情報は次のとおりです.
DEBUG: Crawled (200) (referer: None)
表示される場合
DEBUG: Crawled (403) (referer: None)
Webサイトには、登り止めテクノロジーanti-web-crawling technique(Amazonで使用)が採用されており、ユーザーエージェント(User Agent)情報を簡単にチェックできることを示しています.
解決策
以下に示すように、リクエストヘッダにUser Agentを構築します.
By Techbrood Co.
データをキャプチャする場合、通常のデバッグ情報は次のとおりです.
DEBUG: Crawled (200)
表示される場合
DEBUG: Crawled (403)
Webサイトには、登り止めテクノロジーanti-web-crawling technique(Amazonで使用)が採用されており、ユーザーエージェント(User Agent)情報を簡単にチェックできることを示しています.
解決策
以下に示すように、リクエストヘッダにUser Agentを構築します.
def start_requests(self):
yield Request("http://www.techbrood.com/",
headers={'User-Agent': "your agent string"})
By Techbrood Co.