python爬虫類のBeautifulSoup入門

940 ワード

まずBeautifulSoupの公式紹介を見てみましょう.
Beautiful Soupは、HTMLまたはXMLファイルからデータを抽出できるPythonライブラリである.それはあなたの好きな変換器を通じて慣用的なドキュメントのナビゲーションを実現することができて、ドキュメントを探して、修正する方法.Beautiful Soupは、数時間から数日の作業時間を節約します.
このコードをBeautifulSoupで解析することで、BeautifulSoupのオブジェクトを得ることができます.
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')

このsoupがBeautifulSoupオブジェクトです.
四種類の解析器
Python標準ライブラリ:
BeautifulSoup(markup, "html.parser")
lxmlHTML解析器:
  BeautifulSoup(markup, "lxml")
lxmlXML解析器:
BeautifulSoup(markup, ["lxml-xml"])/BeautifulSoup(markup, "xml")
html5lib : 
BeautifulSoup(markup, "html5lib")

効率が高いため、lxmlを解析器として使用することを推奨する. 
オブジェクトの種類Beautiful Soup複雑なHTMLドキュメントを複雑なツリー構造に変換し、各ノードはPythonオブジェクトであり、すべてのオブジェクトは4種類にまとめることができる:Tag,NavigablesString,BeautifulSoup,Comment.