python爬虫類は頭の使用を要求します。

3348 ワード

爬虫類要求ヘッド
ウェブ検索:
urlopenで取得します。


requset.urlopen(url,data,timeout)

一つ目のパラメータurlはURLで、二つ目のパラメータdataはURLにアクセスする際に送信するデータで、三つ目のtimeoutはタイムアウト時間を設定します。
つ目のパラメータは転送しなくてもいいです。dataはデフォルトでは空Noneです。timeoutはデフォルトではsocketです。GLOOBAL_DEFAULT_TIMEOUT
最初のパラメータURLは必須です。urlopenメソッドを実行した後、reponseオブジェクトに戻り、戻り情報はこの中に保存されます。


from urllib.request import urlopen

url = "https://www.baidu.com/"
respons = urlopen(url)#

レスポンス対象:
レスポンス.read()
read()の方法はファイルの内容を全部読んで、bytesタイプに戻ります。


print(type(respons.read()))#   bytes          
print(type(respons.read().decode()))#  decode     str

レスポンス.get code()
HTTPの応答コードを返します。200に戻りました。4サーバページがエラーです。5サーバの問題です。
レスポンス.geturl()
実際のデータの実際のURLを返し、リダイレクト問題を防止します。
レスポンス.info()
サーバ応答のHTTPヘッダを返します。
Requestオブジェクト
Requestオブジェクトは、urlopenパラメータが一つのrequest要求に入ることができますので（もう一つのステップのパッケージにする機能として理解できます）、要求を構築するには多くのコンテンツを追加する必要がありますので、requestを構築することにより、サーバ応答要求が応答され、論理的に明確になります。


from urllib.request import urlopen,Request
from fake_useragent import UserAgent#         User-Agent

url = "https://www.baidu.com/"
headers = {"User-Agent":UserAgent().firefox}#     
request = Request(url,headers=headers)
response = urlopen(request)

a=response.read().decode()

Get要求
ブラウザはGETメソッドで要求を出します。
爬虫類は主にgetを通じて(通って)またurlの中で要求のパラメーターに参加して、中国語のためにトランスコードして通過します。
Urllib.parse.urlencode（）複数のパラメータに対してトランスコード操作入力フォーマットは辞書タイプです。
Urllib.parse.quotは、単一の文字列に対してトランスコード操作を行います。
Strフォーマット.format()は文字列をつなぎ合わせます。
ポスト要請
一般的に登録が必要なところで使うものが多いです。
request要求には、着信パラメータとしてdataを追加する必要がある。
パラメータは辞書形式でurllib.parse.urlencode()を使って文字列に変換されます。
encode()関数で文字列をトランスコードします(標準値でも大丈夫です。
送信要求／応答headerヘッダの意味
名前
意味
Accept
クライアントサポートのデータタイプをサーバに教えます。
Acctt Charrset
クライアントが使用するコードをサーバに教えます。
Acceept Ecoding
サーバーに教えてください。クライアントがサポートするデータ圧縮フォーマットです。
Acceept Language
サーバー、クライアントの言語環境を教えてください。
Host
クライアントはこのヘッドを通じてサーバーに、アクセスしたいホスト名を教えます。
If-Maodified-Since
クライアントはこのヘッダを通じてサーバーにリソースのキャッシュ時間を教えます。
Referer
クライアントはこのヘッドを通じてサーバーにどのリソースからサーバにアクセスするかを教えます。一般的には防犯チェーンに使用されます）
User-Agent
クライアントはこのヘッドを通じてサーバー、クライアントのソフトウェア環境を教えます。
Cookie
クライアントはこのヘッドを通じてサーバーにデータを教えることができます。
Refresh
サーバーはこのヘッドを通して、ブラウザにどれぐらいの時間を置いて更新するかを教えます。
Conteen-Type
サーバーはこのヘッダを通して、データを返送するタイプです。
コンテント-Language
サーバーはこのヘッダを通して、サーバーの言語環境を教えます。
Server
サーバーはこのヘッダを通して、ブラウザサーバのタイプを教えます。
Conttent Ecoding
サーバーはこのヘッダを通して、ブラウザにデータの圧縮フォーマットを教えます。
Conteet Length
サーバーはこのヘッダを通して、ブラウザにデータの返信の長さを教えます。
Ajax要求
ダイナミックページのページデータを抽出するには、ドラッグによって表示されます。
ブラウザツールボックスを通じて、カバンの情報を探して、urlの法則を見つけて登ります。
もし何回循環するかが分からないなら、死循環を規定します。ページを空にしてから循環を停止します。
urlを変更することで、より多くのページ情報を一度に出力することもできます（サーバーが許可する限り）。
httpsリクエスト
いくつかのブラウザには多くの証明書がありますので、ほとんどのウェブページでは証明書を変更したり、証明書を添付したりしなくてもいいですが、自分で証明書を書くウェブサイトがあります。この操作を行う必要があります。
https要求=httpにsslを追加して、http要求は明文で直接見えます。安全のためにsslを追加します。
証明書を無視してcontext=ssl.uを登ることができます。クリアードunverifed_context()
ここで、python爬虫類のリクエストに関する記事を紹介します。python爬虫類のリクエストに関する内容は以前の文章を検索してください。または下記の関連記事を引き続きご覧ください。これからもよろしくお願いします。