scrapyは起点小説網をよじ登ります。

2202 ワード

暇な時は大丈夫です。勉強中にscrapyでスタート地点の小説名ツールを取ることを練習します。python 3.6オペレーティングシステム:linuxブラウザ:Googleブラウザ
プロジェクトを作成
ブラックスクリーン端末でプロジェクトを作成します。scrapy startproject Qidianはプロジェクトディレクトリに入ります。cd Qidianは爬虫器を作成します。scrapy genspider qidian www.qidian.com/allはpycharmでプロジェクトを開けます。目次の構造が見られます。図に示すように、「Qidian」というページのページを見られます。――init.py├;——items.py├├├-middlewares.py├-pipelins.py_;-py_;——pycache.├├├├)——pypycache.pyppppppppppy.pyche.com.py.py.py.py.pyche.com.pppy.py.py.py.py.pyche.com.pppspidearsが_;-init.pyを├す—pycache煥繮を繫む——init.cpython-36.pyc荗を搫繭する——scrapy.cfg次はQidian.pyを開きます。コードは下記の通りです。プロジェクトはすでに成功しました。
import scrapy
class Qidian Spider(scrapy.Spider):name=“qidian”allowed_domans=[wwww.qidian.com/all]start_urls=[http://www.qidian.com/all/')
def parse(self, response):
    pass
登り始める
この時、私達はurl行列を修正したいです。フレームの提供は簡単です。私達は自分で定義して、url行列を保存します。コードは下記の通りです。requests(self):〓定义の一つのurl列urls=[*]http://www.qidian.com/allfor url in urls:↉は要求対象req=scrapy.Requestを作成します。(url、self.parse)앍は清求yield reqを送ります。ここでは出発点ウェブサイトをxpathで解析して、登り取りたいページを見つけて、審査要素をクリックします。登る要素を見つけたら、copy xpathを右クリックして解析します。私はxpath解析関数を探しています。def parse(self、reponse):title=reponse.xpath(「///div=」book-mid-info')/h 4/a/text(extract)だけです。したがって、私たちはqidian.pyファイルだけを修正しました。私たちはqidian.pyのすべてのコードを見ました。以下の通りです。
--coding:utf-8--
import scrapy
class Qidian Spider(scrapy.Spider):name=“qidian”allowed_domans=[wwww.qidian.com/all]urls=[http://www.qidian.com/all/‘def start_’requests(self):〓定义の一つのurl列urls=[*]http://www.qidian.com/allfor url in urls:铅は要求対象req=scrapy.Requestを作成します。
def parse(self, response):
    title = response.xpath("//div[@class='book-mid-info']/h4/a/text()").extract()
    print(title)
最後に私達のブラックスクリーン端末はscrapy crawl qidian–nolog(–nologはログを削除するという意味です。私達は内容を見るだけです。)最後に私達は登山の結果を見ます。「凡人修仙の仙界編」、「聖墟」、「飛剣問問」、「修真講話群」、「漢郷」、「牧神記」、「大王許命」、「斗羅大陸III龍王伝説」、「深夜書屋」、「超神マシニスト」、「天道図書館」、狂潮」、「闘戦狂潮」、「儒道至聖」最後に、私たちは這い上がった内容を一つのファイルに書くことができます。コードは次の通りです。with open(novel.txt)、a+'as f.write(title)f.write(\\r)この時プロジェクトディレクトリでnovel.txtファイルを見ることができます。内容は以下の通りです。
凡人修仙の仙界編聖墟飛剣は修真チャットの群漢郷牧神記大王の助命斗羅大陸III龍王伝説深夜書屋超神マシニスト天道図書館道君の婿多すぎて、初めて倉庫を持って大明に逆流した純真な年代大道に向かって争って荒波を修行します。