爬虫類入門の爬虫類静的Webページテーブルデータ
1918 ワード
私たちの目標は、このテーブルのデータを登ってcsvファイルのターゲットリンクに保存することです.http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html
私はPyqueryを使うのが好きです.他の解析方法も使えます.
コードの実行後にファイルを表示
私はPyqueryを使うのが好きです.他の解析方法も使えます.
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from pyquery import PyQuery as pq
def get_page(url):
""" """
r = requests.get(url)
r.encoding = 'utf8'
html = r.text
return html
def parse(text):
""" """
doc = pq(text)
# tr
tds = doc('table.table tbody tr.alt').items()
for td in tds:
rank = td.find('td:first-child').text() #
name = td.find('div').text() #
city = td.find('td:nth-child(3)').text() #
score = td.find('td:nth-child(4)').text() #
with open('college.csv', 'a+', encoding='utf8') as f:
f.write(rank + '\t\t')
f.write(name + '\t\t')
f.write(city + '\t\t')
f.write(score + '\t\t
')
print(" ")
if __name__ == "__main__":
url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html"
text = get_page(url)
parse(text)
コードの実行後にファイルを表示