ウェブページをブラウズして練習します:NAVER映画のページ
3257 ワード
スクロールできる理由は?ロードされたページはインターネットとは無関係です.もう受け取りました.
私が受け取ったページコードからフィルタリングして、何を探していますか?
スクロールするとき、技術的には2つの重要な面しかありません.
(1)コードから要求(ブラウザを開かない).=>要求パッケージの使用
(2)リクエストされたhtmlから希望する情報をフィルタします.=>bs 4パッケージの使用
スクロール先ページ:https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303
スクロールテンプレート
リクエストライブラリAPIを使用してリクエストを行います.
bs 4ライブラリを使用してsoup変数にフィルタリングしやすい形式で返します.ページElements
コードからhtmlを取得
bs 4の使用方法
おおよそ2種類ある
- soup.select_one()
- soup.select()
.select_one()
.select()
各行はtrタグに対応
trグループのインポート
trからやり直す.select one()メソッドの使用
番号付け、ムービーカタログ、採点出力
私が受け取ったページコードからフィルタリングして、何を探していますか?
スクロールするとき、技術的には2つの重要な面しかありません.
(1)コードから要求(ブラウザを開かない).=>要求パッケージの使用
(2)リクエストされたhtmlから希望する情報をフィルタします.=>bs 4パッケージの使用
NAVER映画ランキングページを参照します。
スクロール先ページ:https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')
###
ちなみに、タイトルを貼る理由は、コードに要求されたときにこれらの要求を阻止したサイトがあるからです.これにより、ブラウザでエンタープライズを検索してロードできます.リクエストライブラリAPIを使用してリクエストを行います.
bs 4ライブラリを使用してsoup変数にフィルタリングしやすい形式で返します.
おおよそ2種類ある
- soup.select_one()
- soup.select()
.select()
各行はtrタグに対応
trグループのインポート
trからやり直す.select one()メソッドの使用
番号付け、ムービーカタログ、採点出力
Reference
この問題について(ウェブページをブラウズして練習します:NAVER映画のページ), 我々は、より多くの情報をここで見つけました https://velog.io/@jinh2352/웹스크래핑-연습-네이버-영화페이지テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol