Pythonを使ったWebスクレーピング入門
目次
Pythonとは
要約すると、Pythonは素晴らしいプログラミング言語です.言語のいくつかの特徴は以下の通りです.
リンクはこちらthe official page.
ウェブスクレーピングとは何か
ウィキペディアの説明を見つけることができますhere. しかし、それを短くするには、Webページから情報を抽出するために使用されるテクニックです.それは他の名前を持ちます:「ウェブ収穫」、「ウェブデータ抽出」.
ウェブスクレーピングの間の違いは何ですか?
一部の人々は、彼らが平等であるかのように、この2つの用語を参照してくださいが、いくつかの違いがあります.
Webスクレーピングは、通常、1つのページを取るとその情報をスクラップするときです.
ウェブクローリングは、サイトに移動し、そのページのリンクを移動し、ユーザーが行くことができるすべての場所の分岐にクロール、より洗練された複雑なプロセスです.
意見を異にして、コメントを送ってください.
どのような私はPythonとウェブスクレーピングを行う必要がありますか?
まず最初にPython 3をインストールする必要があります.
この最初の手順を実行するには、いくつかのオプションがあります.
-に移動するPython.org そして、それらのステップに従ってください.
- Follow RealPython.com guide.
クール.
あなたがそれをインストールしたので、我々は出発するもう2つのものを必要とします.
次の2つのパッケージをインストールする必要があります:リクエストと美しいスープ.
インストールするには、次の2つのコマンドを実行できます.
$ pip install requests
$ pip install bs4
どうやってやるの?
優れた、今あなたが良いものを開始する準備ができているすべての前の手順を完了しました.
最新の実存的な漫画のテキストを私たちに与えるPythonスクリプトを作成しましょう.
擬似コードは次のようになります.
import requests
from bs4 import BeautifulSoup
# I decided to put it in a method just to re-use it later
def get_upcoming_questions( url ):
# print('Starting the request')
req = requests.get( url )
# print('Request completed')
soup = BeautifulSoup( req.text, 'html.parser' )
questions_raw = soup.find( 'div')
questions = questions_raw.find( 'img',{'class':'comicImg'} )
print( questions['alt'] )
example_url = 'http://existentialcomics.com/'
get_upcoming_questions( example_url )
なぜ私はこれが必要ですか?
今あなたがあまりにも忙しくて実在の漫画から素晴らしい漫画をチェックするだけであなたの新しいスクリプトを実行することができますし、哲学的ユーモアのあなたの毎日の線量を取得します.あなたはそれを必要と知っている.
Reference
この問題について(Pythonを使ったWebスクレーピング入門), 我々は、より多くの情報をここで見つけました https://dev.to/grekz/introduction-to-web-scraping-using-python-36g5テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol