Python爬虫類---初視Scrapy
863 ワード
なぜscrapyを学ぶのか、簡単に言えば爬虫類をもっと速くもっと強くすることです.
インストールコマンド
登り始める前に、新しいScrapyプロジェクトを作成する必要があります.
新しい爬虫類ファイル
作成した爬虫類ファイルjobbole.pyでリクエストを開始し、希望するデータを抽出してstart_urls(開始urlを設定)の値を、最初に登るurlに変更します.
items.pyファイルにフィールドを追加します(Itemは構造化データフィールドを定義し、Pythonのdictに似ていますが、追加の保護を提供してエラーを削減します)
setting.pyでItem Pipelineコンポーネントを有効にすると、SpiderでItemが収集されるとItem Pipelineに渡されるので、pipelineファイルにファイルを設定してローカルのフォーマットとアドレスを書き込むだけでいいです.
インストールコマンド
sudo pip3 install scrapy
登り始める前に、新しいScrapyプロジェクトを作成する必要があります.
scrapy startproject
新しい爬虫類ファイル
scrapy genspider jobbole jobbole.com
作成した爬虫類ファイルjobbole.pyでリクエストを開始し、希望するデータを抽出してstart_urls(開始urlを設定)の値を、最初に登るurlに変更します.
start_urls = ("http://blog.jobbole.com/all-posts/",)
items.pyファイルにフィールドを追加します(Itemは構造化データフィールドを定義し、Pythonのdictに似ていますが、追加の保護を提供してエラーを削減します)
class JobboleItem(scrapy.Item):
# define the fields for your item here like:
#
title = scrapy.Field()
#
create_date = scrapy.Field()
setting.pyでItem Pipelineコンポーネントを有効にすると、SpiderでItemが収集されるとItem Pipelineに渡されるので、pipelineファイルにファイルを設定してローカルのフォーマットとアドレスを書き込むだけでいいです.