pythonは中国の大学の順位を取る最も簡単な方法です

6962 ワード

爬虫学

爬取方法は前編の爬取豆弁top 250方法と類似している
文書ディレクトリ

サイトurl

を見つけました

requestsライブラリ

をインポート

lxmlを介してetree

にインポート

ウェブサイト情報を取得し、

を解析する.

ウェブページテーブル情報

を取得する.

印刷情報

効果展示

ウェブサイトurlを探し当てます
http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html
requestsライブラリのインポート

import requests

lxmlによるetreeのインポート

from lxml import etree

Webサイトの情報と解析

url='http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html'
data=requests.get(url).content
s=etree.HTML(data)

Webページフォーム情報の取得

pm=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[1]/text()')
name=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[2]/div/text()')
shengshi=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[3]/text()')
bg=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/thead/tr/th/text()')

印刷情報

print("{}\t{}\t{}".format(bg[0],bg[2],bg[1]))
for i in range(1002):
    print("{}\t{}\t{}".format(pm[i],shengshi[i],name[i]))

効果の表示
ちょっと多い...たくさん...一部だけ見せましょう

  	  	    
1	  	    
2	  	    
3	  	       
4	  	        
5	  	    
6	  	      
7	  	      
8	  	    
9	  	    
10	  	    
11	  	    
12	  	        
13	  	        
13	  	      
15	  	      
16	  	    
17	  	    
18	  	    
18	  	      
20	  	       
21	  	      
22	  	    
23	  	    
24	  	      
25	  	    
26	  	      
27	  	      
28	  	      
29	  	      （  ）
30	  	      
31	   	       
32	  	      
33	  	       
34	  	      
35	  	      
36	  	        
37	  	    
38	  	      
39	  	    
40	  	      
41	  	      
42	  	      
43	  	    
43	  	      
45	  	      
46	  	       
47	  	    
48	  	      （  ）
49	  	    
50	  	    
51	  	      
52	  	      
53	  	      
54	  	    
55	  	        
56	  	      
56	  	      
58	  	        
58	  	      
60	  	      
61

zshでctrl+pをcursor↑と同じ動作にする

day 4-文字列ジョブ