pythonは中国の大学の順位を取る最も簡単な方法です

6962 ワード

爬取方法は前編の爬取豆弁top 250方法と類似している
文書ディレクトリ
  • サイトurl
  • を見つけました
  • requestsライブラリ
  • をインポート
  • lxmlを介してetree
  • にインポート
  • ウェブサイト情報を取得し、
  • を解析する.
  • ウェブページテーブル情報
  • を取得する.
  • 印刷情報
  • 効果展示
  • ウェブサイトurlを探し当てます
    http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html
    requestsライブラリのインポート
    import requests

    lxmlによるetreeのインポート
    from lxml import etree

    Webサイトの情報と解析
    url='http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html'
    data=requests.get(url).content
    s=etree.HTML(data)

    Webページフォーム情報の取得
    pm=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[1]/text()')
    name=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[2]/div/text()')
    shengshi=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[3]/text()')
    bg=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/thead/tr/th/text()')

    印刷情報
    print("{}\t{}\t{}".format(bg[0],bg[2],bg[1]))
    for i in range(1002):
        print("{}\t{}\t{}".format(pm[i],shengshi[i],name[i]))

    効果の表示
    ちょっと多い...たくさん...一部だけ見せましょう
      	  	    
    1	  	    
    2	  	    
    3	  	       
    4	  	        
    5	  	    
    6	  	      
    7	  	      
    8	  	    
    9	  	    
    10	  	    
    11	  	    
    12	  	        
    13	  	        
    13	  	      
    15	  	      
    16	  	    
    17	  	    
    18	  	    
    18	  	      
    20	  	       
    21	  	      
    22	  	    
    23	  	    
    24	  	      
    25	  	    
    26	  	      
    27	  	      
    28	  	      
    29	  	      (  )
    30	  	      
    31	   	       
    32	  	      
    33	  	       
    34	  	      
    35	  	      
    36	  	        
    37	  	    
    38	  	      
    39	  	    
    40	  	      
    41	  	      
    42	  	      
    43	  	    
    43	  	      
    45	  	      
    46	  	       
    47	  	    
    48	  	      (  )
    49	  	    
    50	  	    
    51	  	      
    52	  	      
    53	  	      
    54	  	    
    55	  	        
    56	  	      
    56	  	      
    58	  	        
    58	  	      
    60	  	      
    61