pythonネットワーク爬虫類学習ノートに精通(1)

1738 ワード

pythonネットワーク爬虫類学習ノートに精通(1)
第一章
爬虫類の構成:制御ノード、爬虫類ノード、リポジトリ
ネットワーク爬虫類には、複数の制御ノード、複数の爬虫類ノード、制御ノード間で互いに通信することができ、制御ノードとその下の爬虫類ノード間でも互いに通信することができ、同じ制御ノードの下の爬虫類ノード間でも互いに通信することができる.コントロールノードの主な責任:
urlアドレスに基づいてスレッドを割り当て、爬虫類を呼び出す
爬虫類ノードの責任:
具体的な登り作業
爬行後、爬行結果はリポジトリに格納されます.
第三章
Pythonのpythonバージョンの学習を開始します:3.6.2
import urllib.request #    
file = urllib.request.urlopen("http://bbs.pinggu.org/thread-1384391-1-1.html")#  url
data = file.read()
print(data) #  
filename = ur.urlretrieve("http://bbs.pinggu.org/thread-1384391-1-1.html",filename = "E:\\2.html") #      

urllib.requestメソッド
さぎょう
.urlcleanup()
キャッシュのクリア
.getcode()
ステータスコードを取得
.geturl
urlを得る
.quote
エンコーディング
.unquote
デコード
403エラーの解決策が発生した場合
URLを入力–f 12–network-headers–user-agentをコピー
import urllib.request
url = "http://bbs.pinggu.org/thread-1384391-1-1.html"
req = urllib.request.Request(url)
header = ("Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36")
req.add_header("User-agent",header) #  user header
data = urllib.request.urlopen(url).read()

ネットワークタイムアウトの設定
.urlopen(url,timeout = )