Pythonのbs 4基礎について簡単に話します。

1755 ワード

インストール
コマンドプロンプトボックスに直接pip install beautifulsoup4を入力します。
紹介する
beautiful soupはpythonの第三者ライブラリであり、xpathと同様に、データを解析するために使用されます。
導入する

from bs4 import BeautifulSoup
使用
文書の一部をBeautiful Soupに送る構造方法で、ドキュメントのオブジェクトを一つ得ることができます。

bs = BeautifulSoup(open('index.html',encoding='utf-8'),'lxml')
print(bs)
注意:このように文書をアップロードすると、Beautiful Soupには二つのパラメータが必要です。一つはopen方法で、一つは固定的な書き方、つまり解像度です。
openメソッドにも同じ二つのパラメータが必要です。一つは解析したいデータ、もう一つはコードのフォーマットを設定します。
(1)ウェブページのtitleタグを取得するprint(bs.title)(2)headラベル及びラベル内部の他のすべてのラベルを取得するprint(bs.head)(3)のうちの最初のaラベルを取得するprint(bs.a)注意:ドキュメント内のすべてのxxの中の最初のxxまたは最初のxxの内容を取得します。bs.xxで取得できます。
(4)指定されたラベルのすべての属性を取得するprint(bs.a.attrs)(5)ラベルの属性を取得するprint(bs.a['href'])
(6)ラベルのテキスト内容を取得する。print(bs.a.string)
注意:stringで取得したテキストは、本ラベルのテキストであり、サブラベルが含まれていないテキストです。
(7)contenstsは、指定されたラベルの下にあるすべてのコンテンツを取得することができる。print(bs.body.contents)(8)すべてのコンテンツの中からインデックスを指定する内容を取得するprint(bs.div.contents[3])(9)idとクラス名でラベルを探すprint(bs.find(id='kw'))
print(bs.find(class_='shopping'))
注意:idは唯一で、idで探します。一つしか見つけられません。だから、findを使って、クラスは唯一ではなく、クラスを通して探します。複数のものを見つけることができます。
(10)指定されたラベルをセレクトするprint(bs.select('title'))
print(bs.select('a'))
bs 4において、小数点「.」は類名を表し、菗はidを表します。print(bs.select('.first'))
print(bs.select('#kw'))
print(bs.select('div.now'))
締め括りをつける
以上はこの文章の全部の内容です。本文の内容は皆さんの学習や仕事に対して一定の参考学習価値を持ってほしいです。ありがとうございます。もっと知りたいなら、下のリンクを見てください。