Srapyベースscrapy_レディが分布爬虫類の配置を実現した例

2604 ワード

Srapy redis 分散型爬虫類

準備工作
1.scrapy_を取り付けるredisパッケージは、cmdツールを開いて、コマンドpip install scrapyを実行します。redis

2.バグがなく、バグが報告されていない爬虫類を用意してください。

3.redisメインサーバーとプログラム関連のmysqlデータベースを用意しておきます。
mysqlデータベースを前提として、リモート接続が許可されています。mysqlインストール後、rootユーザーはデフォルトでローカル接続だけが許可されています。詳細はこの記事をご覧ください。

配置プロセス
1.爬虫類項目のsettingsファイルを修正する
ダウンロード中のscrapy_redisパッケージには、scheduler.pyファイルがあります。その中にはSchduler類があります。urlをスケジュールするために使われています。dupefilter.pyファイルもあります。中にはRFPD Dup Filterという種類があります。重さに行くために、settingsの任意の位置のファイルにそれらを追加します。

そしてscrapy_redisパッケージの中には、pipelineファイルがあります。中のRedis Pipeline類は爬虫類のデータをredisに書き込むことができます。より安定して安全です。だから、settingsの中でpipelineを起動するところからこのpipelineを起動します。

最後にredis接続の設定を変更します。

2.spider爬虫類ファイルを修正する
まず私たちはscrapy_を導入します。redis.spiderファイルの一つであるRedis Spider類は、spider爬虫類のもとに継承されたscrapy.Spider類を導入したRedis Spider類に変更します。

そして元のstartをurlsというコードに注釈を付けて、redis_を入れます。key='カスタムkey値'は、一般的に爬虫類名:urlsで命名されます。

配置が成功したかどうかをテストします。
私たちのプロジェクトを直接実行します。

redisクライアントを開いてredisにkeyを追加します。yunqi:start_urlsのリストで、値は住所です。

追加に成功してプログラムが直接走りました。

データの挿入を確認します。

分散式で使うコードは同じコードであるべきです。
1）まずプロジェクトを分散に配置します。
2）プロジェクトを複数のサーバにコピーする
3）すべての爬虫類を全部走らせ。
4）主redis-cliの中でlpushあなたのウェブサイトはすぐできます。
5）すべての爬虫類は運行を開始します。データはまだ違います。
ここでこのSrapyについてはscrapyに基づいています。レディスが分布爬虫類の配置を実現する例の文章はここまで紹介しました。もっと関連したScripy redisの分布爬虫類の内容は以前の文章を検索してください。または次の関連記事を引き続きご覧ください。これからもよろしくお願いします。

Ofsatr 2.6検索の脆弱性の簡単な分析

linuxの常用命令を勉強します。