python爬虫類xpath

946 ワード

爬虫類の捕獲方法は次のとおりです.
  • 正規表現
  • lxml(xpath)
  • BeautifulSoup

  • 3つの爬虫類の比較:
    つかみ方
    パフォーマンス
    使用の難しさ
    正規表現
    速い
    困難
    lxml
    速い
    単純
    BeautifulSoup
    遅い
    単純
    Xpathの簡単な使い方
    from lxml import etree
    s=etree.HTML(  ) #        XPath     
    s.xpath(xpath   ) #      ,

    基本構文:
  • //ダブルスラッシュはルートノードを位置決めし、全文をスキャンし、ドキュメント内で条件に合致するすべての内容を選択し、リスト形式で返します.
  • /シングルスラッシュ現在のラベルパスの次のパスラベルを探すか、または現在のパスラベルの内容を操作する
  • .
  • /text()現在のパスのテキストコンテンツ
  • を取得する.
  • /@xxxx現在のパスの下にあるラベルの属性値
  • を抽出
  • |オプション使用|は、//p|//divのような複数のパスを選択することができ、すなわち、現在のパスの下で条件を満たすすべてのpラベルおよびdivラベルを選択することができる.
  • . ポイント現在のノード
  • を選択するためのポイント
  • .. 2点現在のノードの親ノード
  • を選択
    ブラウザがコピーしたxpathは参考にするしかありません.ブラウザは自分の中に余分なtbodyラベルを追加することが多いので、手動でこのラベルを削除する必要があります.