python爬虫類xpath

946 ワード

爬虫類の捕獲方法は次のとおりです.

正規表現

lxml(xpath)

BeautifulSoup

3つの爬虫類の比較:
つかみ方
パフォーマンス
使用の難しさ
正規表現
速い
困難
lxml
速い
単純
BeautifulSoup
遅い
単純
Xpathの簡単な使い方

from lxml import etree
s=etree.HTML(  ) #        XPath     
s.xpath(xpath   ) #      ,

基本構文:

//ダブルスラッシュはルートノードを位置決めし、全文をスキャンし、ドキュメント内で条件に合致するすべての内容を選択し、リスト形式で返します.

/シングルスラッシュ現在のラベルパスの次のパスラベルを探すか、または現在のパスラベルの内容を操作する

/text()現在のパスのテキストコンテンツ

を取得する.

/@xxxx現在のパスの下にあるラベルの属性値

を抽出

|オプション使用|は、//p|//divのような複数のパスを選択することができ、すなわち、現在のパスの下で条件を満たすすべてのpラベルおよびdivラベルを選択することができる.

. ポイント現在のノード

を選択するためのポイント

.. 2点現在のノードの親ノード

を選択
ブラウザがコピーしたxpathは参考にするしかありません.ブラウザは自分の中に余分なtbodyラベルを追加することが多いので、手動でこのラベルを削除する必要があります.