Python爬虫類---初視Scrapy

863 ワード

なぜscrapyを学ぶのか、簡単に言えば爬虫類をもっと速くもっと強くすることです.
インストールコマンド

sudo pip3 install scrapy

登り始める前に、新しいScrapyプロジェクトを作成する必要があります.

scrapy startproject

新しい爬虫類ファイル

 scrapy genspider jobbole jobbole.com

作成した爬虫類ファイルjobbole.pyでリクエストを開始し、希望するデータを抽出してstart_urls(開始urlを設定)の値を、最初に登るurlに変更します.

start_urls = ("http://blog.jobbole.com/all-posts/",)

items.pyファイルにフィールドを追加します(Itemは構造化データフィールドを定義し、Pythonのdictに似ていますが、追加の保護を提供してエラーを削減します)

class JobboleItem(scrapy.Item):

    # define the fields for your item here like:
    #  
    title = scrapy.Field()
    #    
    create_date = scrapy.Field()

setting.pyでItem Pipelineコンポーネントを有効にすると、SpiderでItemが収集されるとItem Pipelineに渡されるので、pipelineファイルにファイルを設定してローカルのフォーマットとアドレスを書き込むだけでいいです.

.NETの文字列(2):本当に.NETのStringを知っていますか.

Androidステータスバーとアプリケーションタイトルバーの色が一致する