Scrapy爬虫類--01
1376 ワード
Scrapy,Pythonは,Webサイトをキャプチャし,ページから構造化されたデータを抽出するための高速で高レベルのスクリーンキャプチャとウェブキャプチャフレームワークを開発した.
--from wiki
はっきり言ってpythonベースの爬虫類フレームワークです.
インストール: ubuntu 14.04 python2.7(python 3はサポートされておらず、著者が怠け者ではなく、scrapyのフレームワークがtwistedに依存してpython 3に完全に移行していない) pip
注意:pip 3にもscrapyは装着できますが、サポートライブラリが不足し、使用できません.のおとなしくpython 2
次の操作を行います.
1、新規工事test
これにより、ディレクトリ構造が作成されます.
公式サイトの解釈は以下の通りです. scrapy.cfg:the project configuration file(プロジェクトプロファイル) tutorial/: the project’s python module, you’ll later import your code from here.(プロジェクトのカスタマイズ部分は、どのように翻訳すればいいか分かりません) tutorial/items.py: the project’s items file.(プロジェクトのitemsファイル、実はキャプチャするデータの構造定義) tutorial/pipelines.py: the project’s pipelines file.(プロジェクトのpipelinesファイルで、ここではキャプチャされたデータをエクスポートする方法を定義できます.pipにはscrapy-mongodbのpipelinesがあり、キャプチャされたデータをpipelineに直接エクスポートすることができます.) tutorial/settings.py: the project’s settings file.(プロジェクトのプロファイル) tutorial/spiders/: a directory where you’ll later put your spiders. 続きます...
--from wiki
はっきり言ってpythonベースの爬虫類フレームワークです.
インストール:
sudo pip2 install scrapy
注意:pip 3にもscrapyは装着できますが、サポートライブラリが不足し、使用できません.のおとなしくpython 2
次の操作を行います.
1、新規工事test
scrapy startproject tutoria
これにより、ディレクトリ構造が作成されます.
tutorial/
scrapy.cfg
tutorial/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
..
公式サイトの解釈は以下の通りです.