軽めのスクレイピングプラットフォームを求めてScrapydを試してみた
Scrapydというものがあるらしい
日本語の記事としてはググってみると”クローラーをデーモンとして動かす ― Scrapyd”などの記事が見つかった。
Scrapyをデーモンとして動かせるということだったので、これは”我が家のZaimデータを描画する基盤を作った”の記事の、airflowを使ったプラットフォームを、scrapy化してもっと軽い形で実現できるかもしれないと期待して試してみた。
何はともあれScrapydが動くdockerコンテナ作成
"scrapyd docker"とかでググってみると、幾つかscrapydのdockerコンテナが見つかる。
基本的に、pythonが入っていれば$ pip install scrapyd
でインストール可能のようなので、1からdockerイメージを作ってもよかったけど、今回はalpine linuxベースで作られたharrisbaird/scrapydのdockerイメージをベースに使わせてもらうことにした。
ここで、Scrapyを使って人工衛星の軌道情報をスクレイピングしてみたの記事で作ったspiderを動かすために、以下のようなdocker-compose用ファイル群を収めたgithubリポジトリを作成した。
Scrapydコンテナの設定
上記githubリポジトリのscrapyd.confにて、設定を行っているものは基本的には、公式ドキュメントにある設定を踏襲している。
異なる点は、bind_address = 0.0.0.0
としている点のみ。これは、このScrapydへのアクセスを全てのネットワークから許可する設定になっている。そのため、インターネット上でアクセスできる場所などでコンテナを立ち上げると、あらゆるネットワークからアクセスできてしまうので、注意が必要。
上記の設定はdockerコンテナでport forwardしていると、bind_address = 127.0.0.1
の設定では、ホストマシンのlocalhostからアクセスしていても接続できなかったため上記のように修正した。
Scrapydコンテナの立ち上げ
上記のリポジトリにもあるように
$ git clone https://github.com/inTheRye/docker-scrapyd.git
$ cd docker-scrapyd
$ docker-compose up -d
でコンテナを立ち上げる。
Scrapydコンテナへのアクセス
でアクセスすると以下のようなtop画面が表示される。
Scrapydへ自作Spiderの登録
公式ドキュメントにあるように、jsonのendpointにhttpアクセスするか、scrapyd-clientをインストールして、spiderをscrapyd上にデプロイするかどちらかの方法があるようだった。
(scrapyd-clientもおそらく上記、httpリクエストによるアクセスをラップしているだけと思われるがこちらの方が楽)
$ pip install git+https://github.com/scrapy/scrapyd-client
でscraped-clientをインストールする。
Scrapyを使って人工衛星の軌道情報をスクレイピングしてみたの記事にある、scrapy-sample-baseball/space_object
のディレクトリ直下にあるscrapy.cfg
のdeploy先のurlのコメントアウトを解除する。
[deploy]
url = http://192.168.1.2:6800/
scrapy-sample-baseball/space_object
のディレクトリ直下で、以下のコマンドを実行。
$ scrapyd-deploy
これで、scrapydにspiderが登録できる。
登録されたSpiderの実行
scrapy-sample-baseball/space_object
のディレクトリ直下で、以下のコマンドを実行。
$ scrapyd-client schedule -p space_object tle
top画面から、"Jobs"のリンクをクリックすると
のような形でSpiderのスクレイピングジョブが走っていることが確認できる。
Spider実行時の注意事項
今回、scrapydでの実行にあたり、spiderクラスのコンストラクタを以下のような多引数を受け取れるようなものに修正した。
def __init__(self, *args, **kwargs):
Error with Spider arguments sent using Scrapydにあるように、scrapydでの実行では_jobのキーワード引数をspiderに送っているようで、上記のようにしておかないとエラーになる。
Scrapydを試してみて
良さそうな点
貧弱な計算リソースしか確保できない我が家では悪くないなと思った。ただし、scheduleと言っていながら、実際のスケジューリング機能などは無いようなので、スケジューリング自体はcronなどで自前で設定する必要がある。
ジョブ実行のログ取得は自前で考えるよりも楽ができる。
また、我が家ではあんまり関係無いが、複数のspiderを実行する時などはある程度Scrapydが、並列実行含めてよしなに実行してくれそうなので、その点も良さそうだ。(airflow[celery]での並列実行ほどのものは求めていないのでこの程度の軽さで良い)
なんとなく気持ち悪い点
良さそうな点はあるのだが、一番気持ち悪いのは上記を実行しようとするとScrapydのコンテナとScrapyプロジェクトを収めたコンテナを用意して、httpインタフェースを介してjob実行するために、Scrapyプロジェクトのコンテナでcronで定期スケジュールする必要がある。
これだと、双方のコンテナでほとんど同じpythonのモジュールをimportしておかなければならず役割分担としては重複が多く微妙になる。ではscrapydコンテナとscrapyプロジェクトのコンテナをまとめてしまってはどうかと言うと、同じコンテナ内でジョブ実行のためにhttpインタフェースを介して通信するというのはなんとなく気持ち悪いなと思ってしまった。
Author And Source
この問題について(軽めのスクレイピングプラットフォームを求めてScrapydを試してみた), 我々は、より多くの情報をここで見つけました https://qiita.com/inTheRye/items/06ceb938574ff9030080著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .