Python爬虫類----Webダウンロードとurllib 2モジュールと対応する例

2914 ワード

Webダウンロード:インターネット上のURLに対応するWebページをローカルにダウンロードするツールで、爬虫類のコアコンポーネントです.
Python爬虫----网页下载器和urllib2模块及对应的实例_第1张图片
Python爬虫----网页下载器和urllib2模块及对应的实例_第2张图片
urllib 2のWebページのダウンロードの3つの方法
Python爬虫----网页下载器和urllib2模块及对应的实例_第3张图片
対応するインスタンスコードは次のとおりです.
#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '      -->      '
response1 = urllib2.urlopen(url)  
      
#     ,   200        
print response1.getcode()  
      
#             
print len(response1.read() )

第1の方法-->ダイレクトリクエスト200 4305
Python爬虫----网页下载器和urllib2模块及对应的实例_第4张图片
#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '     :'
#  Request  
request= urllib2.Request(url)

#  http header
request.add_header('User-Agent' , 'Mozilla/5.0')

#         
response2 = urllib2.urlopen(request)

print response2.getcode()
print len(response2.read())

2つ目の方法:200 4305
Python爬虫----网页下载器和urllib2模块及对应的实例_第5张图片
#coding:utf8

import urllib
import urllib2
import cookielib 
     
url =  'http://www.baidu.com'

print '     :'

#  cookie  
cj = cookielib.CookieJar()

#  1 opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

#  urllib2  opener
urllib2.install_opener(opener)

#     cookie urllib2    
response3 = urllib2.urlopen(url)

print response3.getcode()
print cj
print response3.read()

3つ目の方法:200......