01_依存ライブラリのインストール
6472 ワード
ライブラリのインストールを要求 requests:ブロックhttpリクエストライブラリ selenium:自動化テストツール、ブラウザを駆動していくつかの操作 を実行する chromedriver:Googleブラウザドライバ インストール構成 公式サイトhttps://sites.google.com/a/chromium.org/chromedriver/downloads
注意:まずGoogleブラウザのバージョンを見て、公式サイトで対応するバージョンのドライバをダウンロードして、ダウンロードした実行可能なファイルを環境変数の下に配置すればいいです.
テストインストール phantomjs:インタフェースのない、スクリプト可能なブラウザエンジン インストール ダウンロードアドレスhttp://phantomjs.org/download.html は、実行可能ファイルを現在のpython環境のディレクトリの下に配置することを提案する.そうしないと、導入は「phantomjs」executable needs to be in PATHを誤る可能性がある. テストインストール aiohttp:非同期httpリクエストライブラリ を提供する.取付 公式推奨同時インストールの2つのライブラリ cchardet:文字符号化検出ライブラリ aiodns:高速DNS解析ライブラリ 取付
解析ライブラリのインストール lxml:python解析ライブラリ、HTML、XML、xpath解析 をサポート取付 Beautiful Soup 4::python解析ライブラリ、HTML、XMLをサポート、lxml に依存取付 pyquery:JQueryと同様の構文解析htmlを提供し、cssセレクタ をサポートする取付 tesserocr:グラフィック検証コードを識別するライブラリ インストール tesserocrはtesseractに依存するため、tesseract をダウンロードする必要がある.ダウンロードアドレスhttps://digi.bib.uni-mannheim.de/tesseract/
language dataをチェックして、複数の言語を認識できます
インストールtesserocrで発生したエラーと解決方法 エラーVisual C++14.0 ダウンロードアドレスhttps://go.microsoft.com/fwlink/?LinkId=691126 ダウンロード成功後インストール継続エラー いろいろな方法を調べて、すべてだめで、あきらめて、直接whlファイル をインストールします whlファイルダウンロードhttps://github.com/simonflueckiger/tesserocr-windows_build/releases 注:tesseractバージョンとpythonバージョンに対応するtesserocr をダウンロードします.ダウンロードが成功するとダウンロードファイルへのアクセスは、次のコマンド を実行します.インストールに成功し、プログラムを実行し、tesserocrのいくつかの方法の初期化に失敗したことを発見し、エラー情報 を報告した.ネット上で多くの資料を調べて、システム変数を構成して、tessdataファイルを移動して削除してもだめで、後でエラーメッセージをよく研究して、この経路のtessdataが無効であることをはっきり言って、インストールしたtesseractディレクトリの下でtessdataファイルをエラーメッセージのディレクトリの下に移動して、完璧に実行しました.
データベースのインストールリレーショナル・データベース:ストレージ形式はテーブル構造 フィリピン関係型データベース:キー値対 の格納形式 MySQL:軽量レベルの関係型データベース、公式サイトでインストールパッケージをダウンロードしてインストールすれば インストールが完了すると、コンピュータ-管理-サービスでMySQLサービスをオンまたはオフにできます. MongoDB:c++作成非関係型データベース、オープンソース分散ファイルストレージ ダウンロードアドレスhttps://www.mongodb.com/dr/fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-4.0.6-signed.msi/download 占有ポート:27017 可視化ツール:Robo 3 T コマンドライン起動サービス Redis:メモリベースのフィリピン関係型データベース、効率的 ダウンロードアドレスhttps://github.com/MicrosoftArchive/redis/releases 占有ポート:6379 ビジュアル化管理ツール:Redis Desktop Manager
Pythonとインタラクティブなリポジトリのインストール pymysql pymongo
pycharmがインストールされていない場合はsettingにインストールすればよい
redis-py Redisdump:Redisデータのエクスポートに使用されるツール、Rubyに基づいて実装される Ruby を取り付けるダウンロードアドレスhttp://www.ruby-lang.org/zh_cn/documentation/installation ダウンロードが完了すると、システム変数 に設定されます.実行コマンド
Webライブラリのインストール flask:軽量級のwebフレームワーク tornado:非同期I/O対応webフレーム 爬虫類フレームの取り付け
1、pyspider:国内、webUI、スクリプトエディタ、タスクリスニング、プロジェクトマネージャ、結果プロセッサ、多種のメッセージキュー、データベースをサポートし、jsレンダリングページの登り取りもサポートする
注意:pyspiderはjsレンダリングをサポートするためphantomjsに依存し、インストール前にphantomjsがインストールされていることを確認します.取付 エラーが発生する可能性があります.authenticator.domain_controller' instead. 原因:pyspider 3をインストールする.xの場合、wsgidav 3がデフォルトでインストールされます.x,wsgidav 3.xはまだ安定していないので、アンインストール後wsgidav 2に変更します.x 解決 pyspider デフォルトリスニングポート5000、アクセスhttp://locallhost:5000、WebUI管理ページ にアクセス可能
2、scrapy:非常に強力な爬虫類のフレームワークで、依存度が高い取付 で発生する可能性のあるエラーリファレンス文書 3、scrapy-redis:scrapy分布式拡張モジュール取付 4、scrapy-splash:scrapyがjsレンダリングをサポートするツールで、splashサービスとscrapy-splashのpythonライブラリをインストールしてscrapyで使用する必要があります. scrapy-splash をインストール splashサービス、dockerインストール バックグラウンド運転 で発生する可能性のあるエラー デーモンでポート占有エラーが発生する可能性があります localhost:8050にアクセスして反応せずにdocker terminalを開き、デフォルト接続の仮想IPを表示すると、「docker is configured to use the default machine with IP x.x.x」 というプロンプトが表示されます.
関連ライブラリのインストールの配備
1、docker:アプリケーションと環境をパッケージ化し、iosappに類似した独立した「アプリケーション」を形成するコンテナ技術.dockerをサポートする任意の環境で使用できます.ダウンロードアドレスhttps://hub.docker.com/editions/community/docker-ce-desktop-windows cmd入力dockerテスト で問題が発生する可能性があります.win 10ファミリー版がインストールできない場合は、Docker Toolbox をインストールできます.ダウンロードが完了すると、インストール後bashが見つかりません.exeファイルはインストール時にgitがインストールされているため、解決策参考https://blog.csdn.net/A632189007/article/details/78601213
$ pip install requests
$ pip install selenium
注意:まずGoogleブラウザのバージョンを見て、公式サイトで対応するバージョンのドライバをダウンロードして、ダウンロードした実行可能なファイルを環境変数の下に配置すればいいです.
# cmd
$ chromedriver
# cmd
$ phantomjs --version
$ pip install aiohttp
$ pip install aiodns cchardet
解析ライブラリのインストール
$ pip install lxml
$ pip install beautifulsoup4
$ pip install pyquery
language dataをチェックして、複数の言語を認識できます
# tesseract
$ pip install tesserocr pillow
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/
error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\cl.exe' failed with exit status 2
$ pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
RuntimeError: Failed to init API, possibly an invalid tessdata path: D:\XXXX\
データベースのインストール
$ mongod --dbpath 'mongobd data db '
Pythonとインタラクティブなリポジトリのインストール
$ pip install pymysql
$ pip install pymongo
pycharmがインストールされていない場合はsettingにインストールすればよい
$ pip install redis
$ gem install redis-dump
Webライブラリのインストール
$ pip install flask
$ pip install tornado
1、pyspider:国内、webUI、スクリプトエディタ、タスクリスニング、プロジェクトマネージャ、結果プロセッサ、多種のメッセージキュー、データベースをサポートし、jsレンダリングページの登り取りもサポートする
注意:pyspiderはjsレンダリングをサポートするためphantomjsに依存し、インストール前にphantomjsがインストールされていることを確認します.
$ pip install pyspider
$ pip uninstall wsgidav
$ pip install wsgidav==2
$ pyspider all
を起動2、scrapy:非常に強力な爬虫類のフレームワークで、依存度が高い
$ pip install scrpay
$ pip install scrapy-redis
$ pip install scrapy-splash
$ docker run -p 8050:8050 scrapinghub/splash
$ docker run -d -p 8050:8050 scrapinghub/splash
$ docker ps
$ docker kill -s kill 'id'
関連ライブラリのインストールの配備
1、docker:アプリケーションと環境をパッケージ化し、iosappに類似した独立した「アプリケーション」を形成するコンテナ技術.dockerをサポートする任意の環境で使用できます.