スクロール


スクロール開始


初めて試したのは次のニュース

次のニュースをスクロール


ネイバーニュースを試してみたいのですが、権限の問題でできません.
私が持ってきたい情報は?
  • 位ニュース1~10位ニュースタイトル
  • のみ持参
  • ニュースタイトルと本文
  • を取得
    import requests
    from bs4 import BeautifulSoup
    
    webpage = requests.get("https://news.daum.net/ranking/popular")
    soup = BeautifulSoup(webpage.text, "html.parser")
    
    for x in range(0, 20, 2):
        title = soup.select(".link_txt")[x].get_text()
        print(title)
    print("===========================")
    webpage2 = requests.get("https://news.v.daum.net/v/20210608151412944")
    soup2 = BeautifulSoup(webpage2.content, "html.parser")
    content2 = soup2.select('p')
    
    for el in soup2.find_all('p', attrs={'dmcf-ptype': 'general'}):
        txt = el.get_text()
        print(txt)
    
    以下は海外ニュースcnet

    cnetスクロール

  • cnetから5つのTHELATEST
  • を導入
  • ではなく
  • で、タイトル/サブタイトル/本文のみを区別
    import requests
    from bs4 import BeautifulSoup
    
    
    webpage = requests.get("https://www.cnet.com/news/")
    soup = BeautifulSoup(webpage.content, "html.parser")
    title = soup.find(class_ = "fdListingContainer")
    templist=[]
    url = title.find_all('a',attrs={'class':'assetHed'})
    
    for a in url:
        href = a.attrs['href']
        templist.append(href)
    
    for x in range(0,10):
        titles = title.select(".assetHed")[x].get_text()
        if x%2 == 0 :
            print("title : " +titles.lstrip())
        else:
            print("sub_title : "+titles.lstrip())
            webpage2 = requests.get("https://www.cnet.com" + templist[x])
            soup2 = BeautifulSoup(webpage2.content, "html.parser")
            soup3 = soup2.select("#article-body > div.col-7.article-main-body.row > p")
            print("content")
            for j in soup3:
                if j.text.startswith("Read more:"):
                    continue
                else:
                    print(j.text)
            print("="*20)

    スクロールセンシング

  • が欲しいラベルを持つのは思ったより難しいです.
  • は、常にre正規式を使用して、望ましくないコンテンツを削除しようとします.
  • 初めて
  • Pythonに触れ、tabの重要性を知りました.
  • セレンが
  • であることも知りましたが、ずっとクロムを入れすぎたのでパスしました.
  • findとfind allの違いを理解する必要があります.