Python爬虫類----Webダウンロードとurllib 2モジュールと対応する例
2914 ワード
Webダウンロード:インターネット上のURLに対応するWebページをローカルにダウンロードするツールで、爬虫類のコアコンポーネントです.
urllib 2のWebページのダウンロードの3つの方法
対応するインスタンスコードは次のとおりです.
第1の方法-->ダイレクトリクエスト200 4305
2つ目の方法:200 4305
3つ目の方法:200......
data:image/s3,"s3://crabby-images/3562b/3562be9974e6a51a0bddcada7a692e2c9943d4b3" alt="Python爬虫----网页下载器和urllib2模块及对应的实例_第1张图片"
data:image/s3,"s3://crabby-images/427d8/427d80609428868dba0c6989f3889f1c5f2059ff" alt="Python爬虫----网页下载器和urllib2模块及对应的实例_第2张图片"
urllib 2のWebページのダウンロードの3つの方法
data:image/s3,"s3://crabby-images/55ce0/55ce0213c0a5acab91e8b22c3fb943f4e085ac7e" alt="Python爬虫----网页下载器和urllib2模块及对应的实例_第3张图片"
対応するインスタンスコードは次のとおりです.
#coding:utf8
import urllib2
url = 'http://www.baidu.com'
print ' --> '
response1 = urllib2.urlopen(url)
# , 200
print response1.getcode()
#
print len(response1.read() )
第1の方法-->ダイレクトリクエスト200 4305
data:image/s3,"s3://crabby-images/2cffa/2cffa2996ca90408625280f763eb904fa4524284" alt="Python爬虫----网页下载器和urllib2模块及对应的实例_第4张图片"
#coding:utf8
import urllib2
url = 'http://www.baidu.com'
print ' :'
# Request
request= urllib2.Request(url)
# http header
request.add_header('User-Agent' , 'Mozilla/5.0')
#
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())
2つ目の方法:200 4305
data:image/s3,"s3://crabby-images/f02cb/f02cb824279e58ed80a9f1f9f985b3d051199884" alt="Python爬虫----网页下载器和urllib2模块及对应的实例_第5张图片"
#coding:utf8
import urllib
import urllib2
import cookielib
url = 'http://www.baidu.com'
print ' :'
# cookie
cj = cookielib.CookieJar()
# 1 opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
# urllib2 opener
urllib2.install_opener(opener)
# cookie urllib2
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()
3つ目の方法:200......