python-scrapyインストール(win 7システム)
2463 ワード
前言
scrapyは流行の爬虫類のフレームワークです.複雑なプロジェクトに適し、拡張しやすいアーキテクチャ階層化.非同期パッケージをカプセル化し、同時要求と分散配置を実現します.フレームワークの概要エンジン(scrapy engine)は、システム全体のデータストリームを処理し、トランザクションをトリガーします. スケジューラ(scheduler)はエンジンからのリクエストを受信し、キューに押し込み、重さを取り除き、次のリクエストのurlを決定する. ダウンロード機(downloader)はurlに基づいてウェブページを要求し、ウェブページの元のコンテンツをダウンロードし、ウェブページのコンテンツをspidersに返す.(twisted、非同期要求に基づく) 爬虫類(spiders)は、Webページ情報からエンティティ情報を抽出し、単一のエンティティitemを返します.リンクを抽出して後で這い出すこともできます. パイプ(pipeline)は、生産ラインのように単一のエンティティitemを受信して加工します.itemが有効であることを確認し、データを永続化します(csvまたはデータベースを書きます). ダウンロードミドルウェア、爬虫類ミドルウェア、スケジューリングミドルウェア(middle)上記の主要モジュールでは満足できないより細分化またはより前置的なニーズ.例えばdjangoにもミドルウェアがあり、ユーザーがビュー関数に入る前にデータベース接続を新規作成し、ユーザーsessionidを検証し、後でデータベースリンクを破棄する必要がある. プロセスの実行エンジンスケジューラからurlリクエスト エンジンは、受信後、要求としてカプセル化され、ダウンロード器 に渡す.ダウンロードはウェブページを要求し、response に戻る.爬虫解析response得られた実体item item処理パイプに渡す scrapy scrapy依存パッケージのインストールが多く、vcコンパイラが必要なパッケージもあります.
方法一(推奨しない):anaconda、数千種類のコンパイルされた科学計算関連パッケージを持参する.利点コンパイルされたscrapyを持参する.欠点:体積が大きく、ダウンロードパッケージが300 mで、マルチGをインストールする.主に科学計算分野で、多くのパッケージが使えず、flask djangoは新しくダウンロードする必要がない.minicondaはanacondaのコンパクトバージョンである.バージョンが限られている..netが欠けていると、エラーのない失敗を招く.方法2(推奨):pip install scrapyどのパッケージが間違ってvcコンパイラを必要としているかを報告し、コンパイルされたパッケージを単独で公開するウェブサイトに行って、対応するプラットフォームのコンパイル後の.whlファイルのインストールをダウンロードします.
本文(インストール開始)1.twistedをインストールまず
その後、約10個の依存パッケージがインストールされ、インストールに成功したことが表示されます..whlファイルが1つしかインストールされていないという意味で、難しくありません.パッケージにインストールできない場合は、前の解決策を試してみてください.
3.pywin 32のインストール実行時に発見されたものはまだ少ない.pywin 32の多くのwindowsの下部呼び出しに関する機能が使用されている.インストールするには、対応するexeファイルをダウンロードすることを覚えていた.pipインストールがサポートされていることが分かった
このときscrapyプロジェクトはすでに実行できます.pywin 32をインストールしてpython解釈器の下のScriptsディレクトリにcdし、スクリプトをさらにインストールしてより下位のwin 32 api機能を取得します.
実行後、python解釈器ルートディレクトリにdllファイルが2つ増えていることがわかりました.
scrapyは流行の爬虫類のフレームワークです.複雑なプロジェクトに適し、拡張しやすいアーキテクチャ階層化.非同期パッケージをカプセル化し、同時要求と分散配置を実現します.フレームワークの概要
方法一(推奨しない):anaconda、数千種類のコンパイルされた科学計算関連パッケージを持参する.利点コンパイルされたscrapyを持参する.欠点:体積が大きく、ダウンロードパッケージが300 mで、マルチGをインストールする.主に科学計算分野で、多くのパッケージが使えず、flask djangoは新しくダウンロードする必要がない.minicondaはanacondaのコンパクトバージョンである.バージョンが限られている..netが欠けていると、エラーのない失敗を招く.方法2(推奨):pip install scrapyどのパッケージが間違ってvcコンパイラを必要としているかを報告し、コンパイルされたパッケージを単独で公開するウェブサイトに行って、対応するプラットフォームのコンパイル後の.whlファイルのインストールをダウンロードします.
本文(インストール開始)1.twistedをインストールまず
pip install scrapy
を試してみると、twistedパッケージに引っかかることがわかります.このサイトpython extentions for windowsの使い方は、ctrf+Fで欲しいパッケージを見つけることが多いです.これはtwistedのリンクですhttps://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted.私の環境(先生推薦)で、私が選んだのは「Twisted‑18.7.0‑cp 36‑cp 36 m‑win_amd 64.whl」.その後、あまり良くないことが判明したので、もう1つ:Twisted-17.1.0-cp 36-cp 36 m-win_amd 64.whlを使用しました.どちらでも構いません.ダウンロード後、cdはファイルのあるディレクトリpip install Twisted‑18.7.0‑cp36‑cp36m‑win_amd64.whl
へ.2.scrapyのインストールpip install scrapy
その後、約10個の依存パッケージがインストールされ、インストールに成功したことが表示されます..whlファイルが1つしかインストールされていないという意味で、難しくありません.パッケージにインストールできない場合は、前の解決策を試してみてください.
3.pywin 32のインストール実行時に発見されたものはまだ少ない.pywin 32の多くのwindowsの下部呼び出しに関する機能が使用されている.インストールするには、対応するexeファイルをダウンロードすることを覚えていた.pipインストールがサポートされていることが分かった
pip install pywin32
このときscrapyプロジェクトはすでに実行できます.pywin 32をインストールしてpython解釈器の下のScriptsディレクトリにcdし、スクリプトをさらにインストールしてより下位のwin 32 api機能を取得します.
cd C:/python36/Scripts
python pywin32_postinstall.py -install
実行後、python解釈器ルートディレクトリにdllファイルが2つ増えていることがわかりました.