2. BeautifulSoup
7219 ワード
1. BeautifulSoup
このスクロールはPythonベース
1)取付
pip install beautifulsoup4
2)基本的な使い方
import requests
from bs4 import BeautifulSoup
url = 'http://www.naver.com'
response = requests.get(url)
if response.status_code == 200:
html = response.text
soup = BeautifulSoup(html, 'html.parser')
print(soup)
else :
print(response.status_code)
3)特定ラベルの選択方法
(0)条件
(1) soup.find_all()
soup.find_all('태그이름')
soup.find_all(class_='클래스이름')
soup.find_all(attrs={'class':'클래스이름'})
soup.find_all(attrs={'id':'아이디'})
<div> <h3> <form>
など<>に縛られたラベルでクラス=
P.S. soup.find_all() vs soup.find()差異
import requests
from bs4 import BeautifulSoup
url = 'https://www.google.com/search?q=naver&oq=naver&aqs=chrome..69i57j35i39j0i433i512l2j0i131i433i512j0i433i512l2j0i512l2.551j0j15&sourceid=chrome&ie=UTF-8'
response = requests.get(url)
if response.status_code == 200:
html = response.text
soup = BeautifulSoup(html, 'html.parser')
h3 = soup.find('h3')
h3_list = soup.find_all('h3')
print('soup.find')
print(h3)
print('******************\n\n')
print('soup.find_all')
print(h3_list)
(2) soup.select()
soup.select("#id")
soup.select(".클래스이름")
soup.select("태그 이름")
soup.select("태그 이름 > 태그 이름")
クラス名が前にあります貼り付け
タグ名タグ名のみ使用
子ラベル:親>子(直系)
Reference
この問題について(2. BeautifulSoup), 我々は、より多くの情報をここで見つけました https://velog.io/@spamdong/2.-BeautifulSoupテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol