Scrapy爬虫類--01

1376 ワード

Scrapy,Pythonは,Webサイトをキャプチャし,ページから構造化されたデータを抽出するための高速で高レベルのスクリーンキャプチャとウェブキャプチャフレームワークを開発した.
--from wiki
はっきり言ってpythonベースの爬虫類フレームワークです.
インストール:

ubuntu 14.04

python2.7(python 3はサポートされておらず、著者が怠け者ではなく、scrapyのフレームワークがtwistedに依存してpython 3に完全に移行していない)

pip

sudo pip2 install scrapy

注意:pip 3にもscrapyは装着できますが、サポートライブラリが不足し、使用できません.のおとなしくpython 2
次の操作を行います.
1、新規工事test

scrapy startproject tutoria

これにより、ディレクトリ構造が作成されます.

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ..

公式サイトの解釈は以下の通りです.

scrapy.cfg:the project configuration file(プロジェクトプロファイル)

tutorial/: the project’s python module, you’ll later import your code from here.(プロジェクトのカスタマイズ部分は、どのように翻訳すればいいか分かりません)

tutorial/items.py: the project’s items file.(プロジェクトのitemsファイル、実はキャプチャするデータの構造定義)

tutorial/pipelines.py: the project’s pipelines file.(プロジェクトのpipelinesファイルで、ここではキャプチャされたデータをエクスポートする方法を定義できます.pipにはscrapy-mongodbのpipelinesがあり、キャプチャされたデータをpipelineに直接エクスポートすることができます.)

tutorial/settings.py: the project’s settings file.(プロジェクトのプロファイル)

tutorial/spiders/: a directory where you’ll later put your spiders.

続きます...

Android DropBoxManagerサービスの紹介

androidダブル指スケーリング