【Web Scraperチュートリアル04】Web Scraperプラグインのselector理解


「Web Scraper Web爬虫教程」は私がGoogleブラウザプラグインWeb Scraperを爬虫ツールとして、理論と実戦を結合した教程です.
もし皆さんが爬虫類の需要があれば、公衆番号を歓迎して私に連絡して、私は無料でデータを爬取することができます.
私の更に多くの学習ノートについて、あなたが“武漢AIアルゴリズムの研究”の公衆番号に注目することを歓迎して、公衆番号はこのシリーズの教程の視覚効果を閲覧して更に良いです!
「チュートリアル03」でP 2 Pサイトのデータキャプチャが初歩的に実現され、Web Scraperにおいて非常に重要な概念はSelectorsであり、Web Scraperを通じてページデータを這い出すことは、異なる階層のSelectorを新規作成することであることが分かった.
 
「Selectors」
Web Scraperには多くのSelectorが含まれており、これらのSelectorは異なる種類の選択タイプに対応しており、主に3つのタイプに分けられています.
データクラスselectors
  • Text selector
  • Link selector
  • Link popup selector
  • Image selector
  • Table selector
  • Element attribute selector
  • HTML selector
  • Grouped selector

  • 接続クラスselectors
  • Link selector
  • Link popup selector

  • 要素クラスselectors
  • Element selector
  • Element scroll down selector
  • Element click selector

  •  
    「Text selectors」
    テキストセレクタは、テキスト選択に使用します.テキストセレクタは、選択した要素(element)からテキストデータを抽出します.htmlラベルは剥離され、テキストのみが返されます.
    e.g:キャプチャしているページごとに1つの記事しかないニュースサイト.各ページには、文章のタイトル、発表日、著者が含まれています.Link selectorで各ページを逐次開き、Text selectorで文章のタイトル、日付、著者、文章を抽出できます.Text selectorのパラメータ設定ではMultipleは選択されません.私たちが抽出したタイトル、日付、著者、文章情報は1つの記録しか取らないからです.
     
    「Link selectors」
    リンクセレクタは、主にウェブサイトの取得とページのジャンプに用いられ、リンクselectorにサブselectorsがあれば、実際の使用中にリンクselectorのウェブサイトに基づいてウェブサイトの自動ジャンプを行い、逆になければリンクアドレスを取得する.
     
    「Link popup selectors」
    接続ポップアップセレクタはLink selectorと似ていますが、Link popup selectorsはリンクをクリックして新しいウィンドウをポップアップする必要があります.
     
    「Element selectors」
    要素セレクタは、複数のデータ要素を含む要素選択に使用します.たとえば、要素セレクタを使用して、E-コマースWebサイトのアイテムリストを選択できます.セレクタは、選択した各要素を親要素としてサブセレクタに返します.サブセレクタは、エレメントセレクタが提供するエレメントのデータのみを抽出します.
    つまり、Element selectorsにはサブセレクタが必要であり、そのサブセレクタはElement selectorが選択した要素に基づいて選択しなければならない.
     
    「Element click selectors」
    要素クリックセレクタは、主に多くのシーンでクリックして要素をロードする必要があるページに使用されます.例えば、よくある「クリックしてもっとロード」や「ページ番号をクリック」などです.これらはすべてweb Scraperが操作ページをクリックして新しいデータをロードしてから登る必要があります.
     
    「Element scroll selectors」
    スクロール要素セレクタは、主に一部のシーンでスクロールしてより多くのページをロードする必要があります.例えば、多くのマイクロブログを閲覧するとき、マウスをスクロールしてより多くのページをロードする必要があります.
     
    「Grouped selectors」
    グループセレクタは、複数の要素のテキストデータを1つのレコードにグループ化できます.抽出されたデータはJSON形式に格納され,1つの組合せツールが複数の要素をつなぎ合わせる.
     
    「Html selectors」
    Htmlセレクタは、選択した要素のHTMLとテキストを抽出します.親要素の範囲内のHtmlを抽出するだけです.
     
    「Html attribute selectors」
    エレメント属性セレクタは、HTMLエレメントの属性値を抽出します.たとえば、このセレクタを使用して、このリンクからtitleプロパティを抽出できます.

     
    「Table selectors」
    多くのページに対して実際にデータが1つのテーブルに表示され、このヘッダーと内容があります.この場合,Table selectorsを用いて一括単純抽出を行うことができ,抽出の過程でテーマ行とコンテンツ行を作成する必要がある.
     
    「Image selectors」
    画像セレクタは、画像のsrc属性(URL)を抽出することができる.
     
    「Sitemap.xml selectors」
    xmlリンクセレクタはサイトから公開されたSitemap.xmlファイルからurlを抽出します.Sitemap.xmlは主にウェブサイトが検索エンジンの爬虫類を安くするためにサイトをより容易に検索することができ、多くの場合、関連サイトのすべてのページurlが含まれています.