Web Crawling & Web Scraping



概要


インターネットには大量のデータがありますが、これらのデータを利用するには、必要なデータを収集する必要があります.このプロセスはWeb Crawlingと呼ばれます.Web CrawlingWeb Scrapingの違いと関連用語をまとめてみましょう.

Web Crawlingとは?

Web Crawlingは、組織的で自動化された方法でWebを閲覧するプログラムである.多くのデータ(例えば、머신러닝または블록체인)が必要とされる分野では、アプリケーションおよび宿泊アプリケーションの配信に特によく用いられる.

Beautiful Soup

Beautiful Soupは、HtmlおよびXMLファイルからデータをインポートするためのライブラリである.Pythonでbs4を使用すると、目的のデータを簡単に取得できます.
 >>pip install bs4
 
 >>from bs4 import BeautifulSoup
また、Requestというhttp requestライブラリをインストールしてスクロールする必要があります.
crawling_url = "http://books.toscrape.com "books.toscrape.comからデータを収集したい場合は、
crawling_url = "http://books.toscrape.com"

res          = requests.get(crawling_url)

bs           = BeautifulSoup(res.text, 'html.parser')
前述したように、requestsおよびBeautifulSoupのコードを使用すればよい.

Parser

Html Parser HTMLの構文を理解し、ページ内の記述を分類する.上には、Beautiful SoupからParserの4種類があります.
  • html.parser
  • lxml
  • xml
  • html5lib
  • Selenium

    SeleniumBs万だと大変なことになります.現代のウェブページはhtmlcssだけでなく、jsによってrenderが生成されることが多い.したがって、レンダリングなしでデータを収集しようとすると、困難になる可能性があります.Seleniumによって提供されるwebdriverモジュールを使用して、動的ウェブページもWeb Crawlingを使用することができる.

    Web Scraping

    Web Scapingは、HTTPを介してウェブサイト上のコンテンツを任意の形状で加工するプロセスである.Web crawlingWeb Scrapingの一種である.