python爬虫入門-urllibの基本的な使い方

1640 ワード

urllibの基本的な使い方といくつかのパラメータの設定
import urllib
import urllib2

url = 'http://www.xxx.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'username': 'xxx', 'password': 'xxx'}
headers = {'User_Agent': 'user_agent'}
data = urllib.urlencode(values)
request = urllib2.Request(url, data, header)
response = urllib2.urlopen(request)
html = response.read()
print html
headersが設定されています。このように要求を送信すると、headersの情報がサーバに送信され、サーバーが応答します。valuesは要求パラメータです。post提出でサーバーに提出します。get要求パラメータはurlに添付されてサーバーに提出されます。http://www.xxx.com/login?username=xxx&password=xxxこのような方式では、直接にアドレスバーにデータが露出し、情報を漏らすリスクがあるので、比較的プライベートなデータの追憶post方式の提出に関連しています。このようにして、私達はウェブページのソースコードを得ることができます。pythonは爬虫類文法の簡単な結び目を学びます。入門は簡単で、いい選択です。