Python爬虫類はブログを取って可視化の過程の解析を実現します。
ソース:
今回は自分のブログを登りました。全部で10ページで、10枚の文章を書きました。ちょうど100枚のブログを書きました。
pyechartsのインストール:
pip install wheelpip install pyecharts==0.10.9.4
直接pip install pyechartsは最新版をダウンロードして呼び出しできません。
注意点:pyecharts呼び出しは、複数のpyファイルを一緒に呼び出すことができないようです。
ステップの説明:
1.爬虫類は数をとる
2.不正な文字を削除して新しい配列を読み込みます。
3.横軸データを設定し、ヒストグラムを生成する
4.現在のディレクトリの下でレンダーを生成し、ヒストグラムを見る
結果:
ヒストグラムは動的で静的ではない。
以上が本文の全部です。皆さんの勉強に役に立つように、私たちを応援してください。
from pyecharts import Bar
import re
import requests
num=0
b=[]
for i in range(1,11):
link='https://www.cnblogs.com/echoDetected/default.html?page='+str(i)
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
r=requests.get(link,headers=headers)
html=r.text
post=re.findall('<span class="post-view-count">(.*?)</span>',html)
for i in post:
i = i.replace(" (", "")
i = i.replace(")","")
b.append(i)
num=num+1
columns=[]
for i in range(1,num+1):
#
columns.append(' '+str(i))
#
#
bar = Bar(" ", " ")
# ,
bar.add(" ", columns, b, mark_line=["average"], mark_point=["max", "min"])
# ( .html )
bar.render()
爬虫類は重点ではなく、爬虫類の数だけ持ってきます。pyechartsがポイントです。今回は自分のブログを登りました。全部で10ページで、10枚の文章を書きました。ちょうど100枚のブログを書きました。
pyechartsのインストール:
pip install wheelpip install pyecharts==0.10.9.4
直接pip install pyechartsは最新版をダウンロードして呼び出しできません。
注意点:pyecharts呼び出しは、複数のpyファイルを一緒に呼び出すことができないようです。
ステップの説明:
1.爬虫類は数をとる
2.不正な文字を削除して新しい配列を読み込みます。
3.横軸データを設定し、ヒストグラムを生成する
4.現在のディレクトリの下でレンダーを生成し、ヒストグラムを見る
結果:
ヒストグラムは動的で静的ではない。
以上が本文の全部です。皆さんの勉強に役に立つように、私たちを応援してください。