python爬虫類xpath
946 ワード
爬虫類の捕獲方法は次のとおりです.正規表現 lxml(xpath) BeautifulSoup
3つの爬虫類の比較:
つかみ方
パフォーマンス
使用の難しさ
正規表現
速い
困難
lxml
速い
単純
BeautifulSoup
遅い
単純
Xpathの簡単な使い方
基本構文://ダブルスラッシュはルートノードを位置決めし、全文をスキャンし、ドキュメント内で条件に合致するすべての内容を選択し、リスト形式で返します. /シングルスラッシュ現在のラベルパスの次のパスラベルを探すか、または現在のパスラベルの内容を操作する ./text()現在のパスのテキストコンテンツ を取得する./@xxxx現在のパスの下にあるラベルの属性値 を抽出|オプション使用|は、//p|//divのような複数のパスを選択することができ、すなわち、現在のパスの下で条件を満たすすべてのpラベルおよびdivラベルを選択することができる. . ポイント現在のノード を選択するためのポイント .. 2点現在のノードの親ノード を選択
ブラウザがコピーしたxpathは参考にするしかありません.ブラウザは自分の中に余分なtbodyラベルを追加することが多いので、手動でこのラベルを削除する必要があります.
3つの爬虫類の比較:
つかみ方
パフォーマンス
使用の難しさ
正規表現
速い
困難
lxml
速い
単純
BeautifulSoup
遅い
単純
Xpathの簡単な使い方
from lxml import etree
s=etree.HTML( ) # XPath
s.xpath(xpath ) # ,
基本構文:
ブラウザがコピーしたxpathは参考にするしかありません.ブラウザは自分の中に余分なtbodyラベルを追加することが多いので、手動でこのラベルを削除する必要があります.