scrapyはDrupalのウェブサイトを登って、404の間違いをヒントにします

569 ワード

最近Pythonの爬虫類を勉強しています.以前はnodejsで爬虫類を作ることを堅持していました.先日暇でつまらなくて、慕の授業でscrapyの授業を見ました.そして,このフレームワークの設計が真にモジュール化されていることが分かった.だからscrapyで何かを取り始めましたそして私のターゲットサイトはdrupalが作ったのです.ページを分けて捕まえるとき、トップページは正常で、2ページ目に登るとき、大体の率は間違いのヒントです:404、あるいは私にいくつかの汚いデータを返してくれました.
このサイトは本当にベテランですね.そして、サイトのリクエストヘッダをよく分析しました.次の2つを加えると、要求は正常になります.
request.headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'
request.headers['cache-control'] = 'no-cache'

リクエストヘッダの詳細に注意しなければならないようです.