Python urllib.request対象判例解析


爬虫類に接触したばかりで、基礎的なものは常に回顧しなければなりません。このような全面的な招待状はどうしても面の皮を厚くして回転してきます。
Urllib庫は何ですか?
urllibライブラリはPythonに内蔵されているHTTP要求ライブラリです。urllibモジュールが提供する上位インターフェースにより、wwwとftp上のデータをローカルファイルにアクセスするようにします。
いくつかのモジュールがあります。
1.urllib.request要求モジュール
2.urllib.error異常処理モジュール
3.urllib.parse url解析モジュール
4.urllib.robotparser robots.txt解析モジュール
Urllibライブラリのいくつかのモジュールは基本的に次のように使用されます。
urllib.request
urllib.request:urllib.requestモジュールは、FTPなどの基本的な構造HTTP(または他のプロトコル)要求を提供する方法について、ブラウザの要求開始プロセスをシミュレートすることができる。異なるプロトコルを利用してURL情報を取得する。そのいくつかのインターフェースは、基礎認証(Baic Authentication)、Redirections(HTTPリダイレクト)、Cookies(ブラウザCookies)などの状況を処理することができる。これらのインターフェースはhandlesとopenersオブジェクトによって提供されます。
1.よく使う方法はあります
  • read()=ファイルの内容を読み取る
  • geturl()=取得要求url
  • getheaders()=httpリクエストヘッダ情報を取得する
  • getcode()=取得状態コード
  • readline()=1行
  • を取得します。
    2.判例
    
    #coding=utf-8
    #import urllib.request
    #=========response    
    #read()==      
    #geturl()==    url
    #getheaders()==  http     
    #getcode()==     
    #readlines()==    
    #url="http://www.baidu.com";
    #response = urllib.request.urlopen(url);
    #=====  1
    # str = response.read().decode();#    decode   utf8
    # with open("baidu.html","w",encoding="utf8") as fp:
    #   fp.write(str);
    #=====  2      =    read       
    # with open("bai.html","wb") as fp:
    #   fp.write(response.read()); 
    #==          
    # image_url='https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=3772530225,1800402028&fm=26&gp=0.jpg';
    # response = urllib.request.urlopen(image_url);
    # with open("mv.jpg",'wb') as fp:
    #   fp.write(response.read());
    #  3==          
    #image_url='https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=3772530225,1800402028&fm=26&gp=0.jpg';
    #urllib.request.urlretrieve(image_url,"chun.jpg");
    以上が本文の全部です。皆さんの勉強に役に立つように、私たちを応援してください。