01_依存ライブラリのインストール

6472 ワード

ライブラリのインストールを要求
  • requests:ブロックhttpリクエストライブラリ
    $ pip install requests
    
  • selenium:自動化テストツール、ブラウザを駆動していくつかの操作
    $ pip install selenium
    
  • を実行する
  • chromedriver:Googleブラウザドライバ
  • インストール構成
  • 公式サイトhttps://sites.google.com/a/chromium.org/chromedriver/downloads

  • 注意:まずGoogleブラウザのバージョンを見て、公式サイトで対応するバージョンのドライバをダウンロードして、ダウンロードした実行可能なファイルを環境変数の下に配置すればいいです.
  • テストインストール
  • # cmd       
    $ chromedriver
    
  • phantomjs:インタフェースのない、スクリプト可能なブラウザエンジン
  • インストール
  • ダウンロードアドレスhttp://phantomjs.org/download.html
  • は、実行可能ファイルを現在のpython環境のディレクトリの下に配置することを提案する.そうしないと、導入は「phantomjs」executable needs to be in PATHを誤る可能性がある.
  • テストインストール
  • # cmd  
    $ phantomjs --version
    
  • aiohttp:非同期httpリクエストライブラリ
  • を提供する.
  • 取付
    $ pip install aiohttp
    
  • 公式推奨同時インストールの2つのライブラリ
  • cchardet:文字符号化検出ライブラリ
  • aiodns:高速DNS解析ライブラリ
  • 取付
  • $ pip install aiodns cchardet
    

    解析ライブラリのインストール
  • lxml:python解析ライブラリ、HTML、XML、xpath解析
  • をサポート
  • 取付
    $ pip install lxml
    
  • Beautiful Soup 4::python解析ライブラリ、HTML、XMLをサポート、lxml
  • に依存
  • 取付
    $ pip install beautifulsoup4
    
  • pyquery:JQueryと同様の構文解析htmlを提供し、cssセレクタ
  • をサポートする
  • 取付
    $ pip install pyquery
    
  • tesserocr:グラフィック検証コードを識別するライブラリ
  • インストール
  • tesserocrはtesseractに依存するため、tesseract
  • をダウンロードする必要がある.
  • ダウンロードアドレスhttps://digi.bib.uni-mannheim.de/tesseract/

  • language dataをチェックして、複数の言語を認識できます
  • # tesseract     
    $ pip install tesserocr pillow
    
  • インストールtesserocrで発生したエラーと解決方法
  • エラーVisual C++14.0
  • error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/
    
  • ダウンロードアドレスhttps://go.microsoft.com/fwlink/?LinkId=691126
  • ダウンロード成功後インストール継続エラー
  • error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\cl.exe' failed with exit status 2
    
  • いろいろな方法を調べて、すべてだめで、あきらめて、直接whlファイル
  • をインストールします
  • whlファイルダウンロードhttps://github.com/simonflueckiger/tesserocr-windows_build/releases
  • 注:tesseractバージョンとpythonバージョンに対応するtesserocr
  • をダウンロードします.
  • ダウンロードが成功するとダウンロードファイルへのアクセスは、次のコマンド
  • を実行します.
    $ pip3 install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
    
  • インストールに成功し、プログラムを実行し、tesserocrのいくつかの方法の初期化に失敗したことを発見し、エラー情報
  • を報告した.
    RuntimeError: Failed to init API, possibly an invalid tessdata path: D:\XXXX\
    
  • ネット上で多くの資料を調べて、システム変数を構成して、tessdataファイルを移動して削除してもだめで、後でエラーメッセージをよく研究して、この経路のtessdataが無効であることをはっきり言って、インストールしたtesseractディレクトリの下でtessdataファイルをエラーメッセージのディレクトリの下に移動して、完璧に実行しました.



  • データベースのインストール
  • リレーショナル・データベース:ストレージ形式はテーブル構造
  • フィリピン関係型データベース:キー値対
  • の格納形式
  • MySQL:軽量レベルの関係型データベース、公式サイトでインストールパッケージをダウンロードしてインストールすれば
  • インストールが完了すると、コンピュータ-管理-サービスでMySQLサービスをオンまたはオフにできます.
  • MongoDB:c++作成非関係型データベース、オープンソース分散ファイルストレージ
  • ダウンロードアドレスhttps://www.mongodb.com/dr/fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-4.0.6-signed.msi/download
  • 占有ポート:27017
  • 可視化ツール:Robo 3 T
  • コマンドライン起動サービス
  • $ mongod --dbpath 'mongobd data db   '
    
  • Redis:メモリベースのフィリピン関係型データベース、効率的
  • ダウンロードアドレスhttps://github.com/MicrosoftArchive/redis/releases
  • 占有ポート:6379
  • ビジュアル化管理ツール:Redis Desktop Manager

  • Pythonとインタラクティブなリポジトリのインストール
  • pymysql
    $ pip install pymysql
    
  • pymongo
    $ pip install pymongo
    

    pycharmがインストールされていない場合はsettingにインストールすればよい
  • redis-py
    $ pip install redis
    
  • Redisdump:Redisデータのエクスポートに使用されるツール、Rubyに基づいて実装される
  • Ruby
  • を取り付ける
  • ダウンロードアドレスhttp://www.ruby-lang.org/zh_cn/documentation/installation
  • ダウンロードが完了すると、システム変数
  • に設定されます.
  • 実行コマンド
  • $ gem install redis-dump
    

    Webライブラリのインストール
  • flask:軽量級のwebフレームワーク
    $ pip install flask
    
  • tornado:非同期I/O対応webフレーム
    $ pip install tornado
    
  • 爬虫類フレームの取り付け
    1、pyspider:国内、webUI、スクリプトエディタ、タスクリスニング、プロジェクトマネージャ、結果プロセッサ、多種のメッセージキュー、データベースをサポートし、jsレンダリングページの登り取りもサポートする
    注意:pyspiderはjsレンダリングをサポートするためphantomjsに依存し、インストール前にphantomjsがインストールされていることを確認します.
  • 取付
    $ pip install pyspider
    
  • エラーが発生する可能性があります.authenticator.domain_controller' instead.
  • 原因:pyspider 3をインストールする.xの場合、wsgidav 3がデフォルトでインストールされます.x,wsgidav 3.xはまだ安定していないので、アンインストール後wsgidav 2に変更します.x
  • 解決
    $ pip uninstall wsgidav
    $ pip install wsgidav==2
    
  • pyspider
    $ pyspider all
    
    を起動
  • デフォルトリスニングポート5000、アクセスhttp://locallhost:5000、WebUI管理ページ
  • にアクセス可能

    2、scrapy:非常に強力な爬虫類のフレームワークで、依存度が高い
  • 取付
    $ pip install scrpay
    
  • で発生する可能性のあるエラーリファレンス文書
  • 3、scrapy-redis:scrapy分布式拡張モジュール
  • 取付
    $ pip install scrapy-redis
    
  • 4、scrapy-splash:scrapyがjsレンダリングをサポートするツールで、splashサービスとscrapy-splashのpythonライブラリをインストールしてscrapyで使用する必要があります.
  • scrapy-splash
    $ pip install scrapy-splash
    
  • をインストール
  • splashサービス、dockerインストール
    $ docker run -p 8050:8050 scrapinghub/splash
    
  • バックグラウンド運転
  • $ docker run -d -p 8050:8050 scrapinghub/splash
    
  • で発生する可能性のあるエラー
  • デーモンでポート占有エラーが発生する可能性があります
  • $ docker ps
    $ docker kill -s kill 'id'
    
  • localhost:8050にアクセスして反応せずにdocker terminalを開き、デフォルト接続の仮想IPを表示すると、「docker is configured to use the default machine with IP x.x.x」
  • というプロンプトが表示されます.

    関連ライブラリのインストールの配備
    1、docker:アプリケーションと環境をパッケージ化し、iosappに類似した独立した「アプリケーション」を形成するコンテナ技術.dockerをサポートする任意の環境で使用できます.
  • ダウンロードアドレスhttps://hub.docker.com/editions/community/docker-ce-desktop-windows
  • cmd入力dockerテスト
  • で問題が発生する可能性があります.win 10ファミリー版がインストールできない場合は、Docker Toolbox
  • をインストールできます.
  • ダウンロードが完了すると、インストール後bashが見つかりません.exeファイルはインストール時にgitがインストールされているため、解決策参考https://blog.csdn.net/A632189007/article/details/78601213