Python爬虫類---初視Scrapy

863 ワード

なぜscrapyを学ぶのか、簡単に言えば爬虫類をもっと速くもっと強くすることです.
インストールコマンド
sudo pip3 install scrapy

登り始める前に、新しいScrapyプロジェクトを作成する必要があります.
scrapy startproject     

新しい爬虫類ファイル
 scrapy genspider jobbole jobbole.com

作成した爬虫類ファイルjobbole.pyでリクエストを開始し、希望するデータを抽出してstart_urls(開始urlを設定)の値を、最初に登るurlに変更します.
start_urls = ("http://blog.jobbole.com/all-posts/",)

items.pyファイルにフィールドを追加します(Itemは構造化データフィールドを定義し、Pythonのdictに似ていますが、追加の保護を提供してエラーを削減します)
class JobboleItem(scrapy.Item):

    # define the fields for your item here like:
    #  
    title = scrapy.Field()
    #    
    create_date = scrapy.Field()

setting.pyでItem Pipelineコンポーネントを有効にすると、SpiderでItemが収集されるとItem Pipelineに渡されるので、pipelineファイルにファイルを設定してローカルのフォーマットとアドレスを書き込むだけでいいです.