Python-scrapy個人趣味チュートリアル(一):装備を買ってから出かける

1020 ワード

python 爬虫類

仕事の都合でpythonに半年接触し、また仕事の都合でpythonを一時的に別れます.
Cから直接pythonにジャンプする迷路として、私たちは本当にプログラミングが急に幸せで、もう自分でメモリを管理する必要はありません.もう早輪を繰り返す必要はありません.もうタイプをチェックする必要はありません.何でもライブラリサポートがあります.
もちろん、以上の感じで1週間しか滞在していません..pythonはスイスの軍刀のようなもので、万能な道具ですが、開くと重複する道具が多く、どちらを選んでももう一つがいいと思います--.
ツッコミが終わり、このチュートリアルは主にプログラミングの基礎があり、python爬虫類に興味があり、水を試したい子供靴たちを対象にしています.
基本環境:
1.Ubuntu 14.04、私はここでアリクラウドサーバーに置いたのです.
2. python 2.7.* (Ubuntu持参)
準備:

pythonインストールscrapyに必要なライブラリを用意します.

sudo apt-get install python-dev libffi-dev libssl-dev libxml2-dev libxslt1-dev

pipをインストールget-pipを通過する.py.(国内では何回か試してみるかもしれません)

scrapy,pip install scrapy

をインストール

beautifulsoup 4をインストールしてhtmlを解析しやすくて、pip install beautifulsoup 4

mongodbをインストールし、多くのdbが使用できます.ここでmongoを使うのは純粋に勉強のためです.sudo apt-get install mongodb

mongodbのpython APIをインストールし、pip install pymongo

以上を組み立てて、実行します.

scrapy startproject GoProxy

成功すると、私たちが作成した爬虫類プロジェクトGoProxyが得られます.

phpバックグラウンドPHPCMSマルチ言語Webサイトソリューション

さくっとテスト用のS3が欲しい。minioをdocker-composeで起動し、初期bucketがある状態を作る。