ネットの爬虫類：動態的なページを登ります。

2678 ワード

import requests
from bs4 import BeautifulSoup
 
res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
#    
commentCount = soup.select_one('#commentCount1')
print(commentCount.text)

空です。これはjsに保存されています。

import json
comments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783')
comments.encoding = 'utf-8'
print(comments)
jd = json.loads(comments.text.strip('var data=')) #   var data=    json  
print(jd['result']['count']['total'])

var dataを削除=取得時に文字列プレフィックスはvar data=を含むので、jsonデータフォーマットに合わないため、変換時に要求内容から削除する必要があります。
転載先:https://www.cnblogs.com/xingnie/p/9716284.html

mavenダウンロードjarパッケージの問題

docker環境検査はcpuの急騰を占用する異常javaサービスです。