Python爬虫類はブログを取って可視化の過程の解析を実現します。


ソース:

from pyecharts import Bar
import re
import requests
num=0
b=[]
for i in range(1,11):
  link='https://www.cnblogs.com/echoDetected/default.html?page='+str(i)
  headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
  r=requests.get(link,headers=headers)
  html=r.text
  post=re.findall('<span class="post-view-count">(.*?)</span>',html)
for i in post:
    i = i.replace("  (", "")
    i = i.replace(")","")
    b.append(i)
    num=num+1
columns=[]
for i in range(1,num+1):
#    
  columns.append('  '+str(i))
#    
#             
bar = Bar("   ", "        ")
#            ,    
bar.add("   ", columns, b, mark_line=["average"], mark_point=["max", "min"])
#      (   .html  )
bar.render()
爬虫類は重点ではなく、爬虫類の数だけ持ってきます。pyechartsがポイントです。
今回は自分のブログを登りました。全部で10ページで、10枚の文章を書きました。ちょうど100枚のブログを書きました。
pyechartsのインストール:
pip install wheelpip install pyecharts==0.10.9.4
直接pip install pyechartsは最新版をダウンロードして呼び出しできません。
注意点:pyecharts呼び出しは、複数のpyファイルを一緒に呼び出すことができないようです。
ステップの説明:
1.爬虫類は数をとる
2.不正な文字を削除して新しい配列を読み込みます。
3.横軸データを設定し、ヒストグラムを生成する
4.現在のディレクトリの下でレンダーを生成し、ヒストグラムを見る
結果:

ヒストグラムは動的で静的ではない。

以上が本文の全部です。皆さんの勉強に役に立つように、私たちを応援してください。