Scrapy爬虫類--01

1376 ワード

Scrapy,Pythonは,Webサイトをキャプチャし,ページから構造化されたデータを抽出するための高速で高レベルのスクリーンキャプチャとウェブキャプチャフレームワークを開発した.
--from wiki
はっきり言ってpythonベースの爬虫類フレームワークです.
インストール:
  • ubuntu 14.04
  • python2.7(python 3はサポートされておらず、著者が怠け者ではなく、scrapyのフレームワークがtwistedに依存してpython 3に完全に移行していない)
  • pip
  • sudo pip2 install scrapy

    注意:pip 3にもscrapyは装着できますが、サポートライブラリが不足し、使用できません.のおとなしくpython 2
    次の操作を行います.
    1、新規工事test
    scrapy startproject tutoria

    これにより、ディレクトリ構造が作成されます.
    tutorial/
        scrapy.cfg
        tutorial/
            __init__.py
            items.py
            pipelines.py
            settings.py
            spiders/
                __init__.py
                ..

    公式サイトの解釈は以下の通りです.
  • scrapy.cfg:the project configuration file(プロジェクトプロファイル)
  • tutorial/: the project’s python module, you’ll later import your code from here.(プロジェクトのカスタマイズ部分は、どのように翻訳すればいいか分かりません)
  • tutorial/items.py: the project’s items file.(プロジェクトのitemsファイル、実はキャプチャするデータの構造定義)
  • tutorial/pipelines.py: the project’s pipelines file.(プロジェクトのpipelinesファイルで、ここではキャプチャされたデータをエクスポートする方法を定義できます.pipにはscrapy-mongodbのpipelinesがあり、キャプチャされたデータをpipelineに直接エクスポートすることができます.)
  • tutorial/settings.py: the project’s settings file.(プロジェクトのプロファイル)
  • tutorial/spiders/: a directory where you’ll later put your spiders.
  • 続きます...