Python爬虫類----Webダウンロードとurllib 2モジュールと対応する例

2914 ワード

Python

Webダウンロード:インターネット上のURLに対応するWebページをローカルにダウンロードするツールで、爬虫類のコアコンポーネントです.

urllib 2のWebページのダウンロードの3つの方法

対応するインスタンスコードは次のとおりです.

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '      -->      '
response1 = urllib2.urlopen(url)  
      
#     ，   200        
print response1.getcode()  
      
#             
print len(response1.read() )

第1の方法-->ダイレクトリクエスト200 4305

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '     ：'
#  Request  
request= urllib2.Request(url)

#  http header
request.add_header('User-Agent' , 'Mozilla/5.0')

#         
response2 = urllib2.urlopen(request)

print response2.getcode()
print len(response2.read())

2つ目の方法:200 4305

#coding:utf8

import urllib
import urllib2
import cookielib 
     
url =  'http://www.baidu.com'

print '     ：'

#  cookie  
cj = cookielib.CookieJar()

#  1 opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

#  urllib2  opener
urllib2.install_opener(opener)

#     cookie urllib2    
response3 = urllib2.urlopen(url)

print response3.getcode()
print cj
print response3.read()

3つ目の方法:200......

18週acm--2

golang面接問題(10)協程交互印刷奇数偶数