ウェブページをブラウズして練習します:NAVER映画のページ

3257 ワード

テキストリンク

スクロールできる理由は?ロードされたページはインターネットとは無関係です.もう受け取りました.
私が受け取ったページコードからフィルタリングして、何を探していますか?
スクロールするとき、技術的には2つの重要な面しかありません.
(1)コードから要求(ブラウザを開かない).=>要求パッケージの使用
(2)リクエストされたhtmlから希望する情報をフィルタします.=>bs 4パッケージの使用

NAVER映画ランキングページを参照します。

スクロール先ページ:https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303

スクロールテンプレート

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

###

ちなみに、タイトルを貼る理由は、コードに要求されたときにこれらの要求を阻止したサイトがあるからです.これにより、ブラウザでエンタープライズを検索してロードできます.
リクエストライブラリAPIを使用してリクエストを行います.
bs 4ライブラリを使用してsoup変数にフィルタリングしやすい形式で返します.

ページElements