ネットの爬虫類:動態的なページを登ります。
2678 ワード
import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
#
commentCount = soup.select_one('#commentCount1')
print(commentCount.text)
空です。これはjsに保存されています。import json
comments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783')
comments.encoding = 'utf-8'
print(comments)
jd = json.loads(comments.text.strip('var data=')) # var data= json
print(jd['result']['count']['total'])
var dataを削除=取得時に文字列プレフィックスはvar data=を含むので、jsonデータフォーマットに合わないため、変換時に要求内容から削除する必要があります。転載先:https://www.cnblogs.com/xingnie/p/9716284.html