pythonは中国の大学の順位を取る最も簡単な方法です
6962 ワード
爬取方法は前編の爬取豆弁top 250方法と類似している
文書ディレクトリサイトurl を見つけました requestsライブラリ をインポート lxmlを介してetree にインポートウェブサイト情報を取得し、 を解析する.ウェブページテーブル情報 を取得する.印刷情報 効果展示 ウェブサイトurlを探し当てます
http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html
requestsライブラリのインポート
lxmlによるetreeのインポート
Webサイトの情報と解析
Webページフォーム情報の取得
印刷情報
効果の表示
ちょっと多い...たくさん...一部だけ見せましょう
文書ディレクトリ
http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html
requestsライブラリのインポート
import requests
lxmlによるetreeのインポート
from lxml import etree
Webサイトの情報と解析
url='http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html'
data=requests.get(url).content
s=etree.HTML(data)
Webページフォーム情報の取得
pm=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[1]/text()')
name=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[2]/div/text()')
shengshi=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[3]/text()')
bg=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/thead/tr/th/text()')
印刷情報
print("{}\t{}\t{}".format(bg[0],bg[2],bg[1]))
for i in range(1002):
print("{}\t{}\t{}".format(pm[i],shengshi[i],name[i]))
効果の表示
ちょっと多い...たくさん...一部だけ見せましょう
1
2
3
4
5
6
7
8
9
10
11
12
13
13
15
16
17
18
18
20
21
22
23
24
25
26
27
28
29 ( )
30
31
32
33
34
35
36
37
38
39
40
41
42
43
43
45
46
47
48 ( )
49
50
51
52
53
54
55
56
56
58
58
60
61