pythonは簡単なネットワーク爬虫類を作ります
967 ワード
この章ではpython標準ライブラリurllib 2を用いて簡単なネットワーク爬虫類を実現する(本章はシロに簡単で、噴き出すのが嫌である)一、urllib 2は以下の方法を定義した:urllib 2.urlopen(URL,Data,timeout)Dataパラメータ:POSTデータ送信(例えば、アカウントパスワード送信サーバ判定ログイン)urlパラメータ:Web URL、requestオブジェクトを受け入れることができます.Openファイルオブジェクトと同様に、ページデータurllib 2を読み出す.Request(URL,Data=None,headers={})注意R大文字DataがNoneの場合、GETリクエストが送信され、逆にPOST 2、urllib 2の小さなケースpythonが簡単なネットワーク爬虫類を作成する
import urllib
import urllib2
import re
if __name__ == '__main__':
url = "https://www.python.org/downloads/"
# GET .read()
res = urllib.urlopen(url).read()
# Pattern
r = re.compile(r"Download the latest version for Windows[\s\S]+?[\
s\S]+?").findall(res)[0]
#
li = re.compile(r'a class="button" href="(.*?)">(.*?)
Download Python 3.6.0のデータを取得します.https://www.python.org/ftp/py...Download Python 2.7.13:https://www.python.org/ftp/py...以上は簡単なネット爬虫類で、あなたに役に立つことを望んでいます.