ウェブページをブラウズして練習します:NAVER映画のページ

3257 ワード

スクロールできる理由は?ロードされたページはインターネットとは無関係です.もう受け取りました.
私が受け取ったページコードからフィルタリングして、何を探していますか?
スクロールするとき、技術的には2つの重要な面しかありません.
(1)コードから要求(ブラウザを開かない).=>要求パッケージの使用
(2)リクエストされたhtmlから希望する情報をフィルタします.=>bs 4パッケージの使用

NAVER映画ランキングページを参照します。


スクロール先ページ:https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303
  • スクロールテンプレート
  • import requests
    from bs4 import BeautifulSoup
    
    headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
    data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)
    
    soup = BeautifulSoup(data.text, 'html.parser')
    
    ###
    ちなみに、タイトルを貼る理由は、コードに要求されたときにこれらの要求を阻止したサイトがあるからです.これにより、ブラウザでエンタープライズを検索してロードできます.
    リクエストライブラリAPIを使用してリクエストを行います.
    bs 4ライブラリを使用してsoup変数にフィルタリングしやすい形式で返します.
  • ページElements
  • コードからhtmlを取得

  • bs 4の使用方法
    おおよそ2種類ある
    - soup.select_one()
    - soup.select()
  • .select_one()



  • .select()

    各行はtrタグに対応

    trグループのインポート
    trからやり直す.select one()メソッドの使用



  • 番号付け、ムービーカタログ、採点出力