python-scrapyインストール(win 7システム)

2463 ワード

前言
scrapyは流行の爬虫類のフレームワークです.複雑なプロジェクトに適し、拡張しやすいアーキテクチャ階層化.非同期パッケージをカプセル化し、同時要求と分散配置を実現します.フレームワークの概要
  • エンジン(scrapy engine)は、システム全体のデータストリームを処理し、トランザクションをトリガーします.
  • スケジューラ(scheduler)はエンジンからのリクエストを受信し、キューに押し込み、重さを取り除き、次のリクエストのurlを決定する.
  • ダウンロード機(downloader)はurlに基づいてウェブページを要求し、ウェブページの元のコンテンツをダウンロードし、ウェブページのコンテンツをspidersに返す.(twisted、非同期要求に基づく)
  • 爬虫類(spiders)は、Webページ情報からエンティティ情報を抽出し、単一のエンティティitemを返します.リンクを抽出して後で這い出すこともできます.
  • パイプ(pipeline)は、生産ラインのように単一のエンティティitemを受信して加工します.itemが有効であることを確認し、データを永続化します(csvまたはデータベースを書きます).
  • ダウンロードミドルウェア、爬虫類ミドルウェア、スケジューリングミドルウェア(middle)上記の主要モジュールでは満足できないより細分化またはより前置的なニーズ.例えばdjangoにもミドルウェアがあり、ユーザーがビュー関数に入る前にデータベース接続を新規作成し、ユーザーsessionidを検証し、後でデータベースリンクを破棄する必要がある.
  • プロセスの実行
  • エンジンスケジューラからurlリクエスト
  • エンジンは、受信後、要求としてカプセル化され、ダウンロード器
  • に渡す.
  • ダウンロードはウェブページを要求し、response
  • に戻る.
  • 爬虫解析response得られた実体item
  • item処理パイプに渡す
  • scrapy scrapy依存パッケージのインストールが多く、vcコンパイラが必要なパッケージもあります.
    方法一(推奨しない):anaconda、数千種類のコンパイルされた科学計算関連パッケージを持参する.利点コンパイルされたscrapyを持参する.欠点:体積が大きく、ダウンロードパッケージが300 mで、マルチGをインストールする.主に科学計算分野で、多くのパッケージが使えず、flask djangoは新しくダウンロードする必要がない.minicondaはanacondaのコンパクトバージョンである.バージョンが限られている..netが欠けていると、エラーのない失敗を招く.方法2(推奨):pip install scrapyどのパッケージが間違ってvcコンパイラを必要としているかを報告し、コンパイルされたパッケージを単独で公開するウェブサイトに行って、対応するプラットフォームのコンパイル後の.whlファイルのインストールをダウンロードします.
    本文(インストール開始)1.twistedをインストールまずpip install scrapyを試してみると、twistedパッケージに引っかかることがわかります.このサイトpython extentions for windowsの使い方は、ctrf+Fで欲しいパッケージを見つけることが多いです.これはtwistedのリンクですhttps://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted.私の環境(先生推薦)で、私が選んだのは「Twisted‑18.7.0‑cp 36‑cp 36 m‑win_amd 64.whl」.その後、あまり良くないことが判明したので、もう1つ:Twisted-17.1.0-cp 36-cp 36 m-win_amd 64.whlを使用しました.どちらでも構いません.ダウンロード後、cdはファイルのあるディレクトリpip install Twisted‑18.7.0‑cp36‑cp36m‑win_amd64.whlへ.2.scrapyのインストール
    pip install scrapy
    

    その後、約10個の依存パッケージがインストールされ、インストールに成功したことが表示されます..whlファイルが1つしかインストールされていないという意味で、難しくありません.パッケージにインストールできない場合は、前の解決策を試してみてください.
    3.pywin 32のインストール実行時に発見されたものはまだ少ない.pywin 32の多くのwindowsの下部呼び出しに関する機能が使用されている.インストールするには、対応するexeファイルをダウンロードすることを覚えていた.pipインストールがサポートされていることが分かった
    pip install pywin32
    

    このときscrapyプロジェクトはすでに実行できます.pywin 32をインストールしてpython解釈器の下のScriptsディレクトリにcdし、スクリプトをさらにインストールしてより下位のwin 32 api機能を取得します.
    cd C:/python36/Scripts
    python pywin32_postinstall.py -install
    

    実行後、python解釈器ルートディレクトリにdllファイルが2つ増えていることがわかりました.