python爬虫類(一)豆弁映画ランキング上位50位映画の情報

23239 ワード

python爬虫類(一)豆弁映画ランキング上位50位映画の情報
Python爬虫類では,beautifulsoupを用いてウェブページを解析することができる.ランキング、映画名、監督、公開年、映画分類、採点など、豆弁映画ランキング上位50位の映画の詳細を取得するために使用することができます.この中には、beautifulsoupで解析された文字列の情報もあるので、正規表現を使ってさらに解析する必要があります.主な機能は、豆弁TOP 250映画の中英文名、香港台湾名、監督、上映年、映画分類および採点を取得し、データをドキュメントに保存することです.コードは次のとおりです.
import re
import requests
from bs4 import BeautifulSoup


for i in range(0,2):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
        'Host': 'movie.douban.com'
    }

    link = 'https://movie.douban.com/top250?start='+str(25*i)

    r = requests.get(link, headers=headers, timeout=10)

    soup = BeautifulSoup(r.text, "lxml")
    div_list = soup.find_all('div', class_='item')
    # print(div_list)
    movies = []
    for each in div_list:
        movie = {}
        moviename = each.find('div', class_='hd').a.span.text.strip()
        movie['title'] = moviename
        rank = each.find('div', class_='pic').em.text.strip()
        movie['rank'] = rank
        info = each.find('div', class_='bd').p.text.strip()
        info = info.replace('
'
, "") info = info.replace(" ", "") info = info.replace("\xa0", "") director = re.findall(r'[ :].+[ :]', info)[0] director = director[3:len(director) - 6] movie['director'] = director release_date = re.findall(r'[0-9]{4}', info)[0] movie['release_date'] = release_date plot = re.findall(r'[0-9]*[/].+[/].+', info)[0] plot = plot[1:] plot = plot[plot.index('/') + 1:] plot = plot[plot.index('/') + 1:] movie['plot'] = plot star = each.find('div', class_='star') star = star.find('span', class_='rating_num').text.strip() movie['star'] = star movies.append(movie) print(movie)

出力をファイルに保存したい場合は、コードに追加できます.
mylog = open('/Users/qiguan/douban.txt',mode='a',encoding='utf-8')

最後の行のprintを
print(movie,file=mylog)

ファイルに書き込まれるコードは次のとおりです.
import re
import requests
from bs4 import BeautifulSoup

#     
mylog = open('/Users/qiguan/douban.txt',mode='a',encoding='utf-8')

for i in range(0,2):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
        'Host': 'movie.douban.com'
    }

    link = 'https://movie.douban.com/top250?start='+str(25*i)

    r = requests.get(link, headers=headers, timeout=10)

    soup = BeautifulSoup(r.text, "lxml")
    div_list = soup.find_all('div', class_='item')
    # print(div_list)
    movies = []
    for each in div_list:
        movie = {}
        moviename = each.find('div', class_='hd').a.span.text.strip()
        movie['title'] = moviename
        rank = each.find('div', class_='pic').em.text.strip()
        movie['rank'] = rank
        info = each.find('div', class_='bd').p.text.strip()
        info = info.replace('
'
, "") info = info.replace(" ", "") info = info.replace("\xa0", "") director = re.findall(r'[ :].+[ :]', info)[0] director = director[3:len(director) - 6] movie['director'] = director release_date = re.findall(r'[0-9]{4}', info)[0] movie['release_date'] = release_date plot = re.findall(r'[0-9]*[/].+[/].+', info)[0] plot = plot[1:] plot = plot[plot.index('/') + 1:] plot = plot[plot.index('/') + 1:] movie['plot'] = plot star = each.find('div', class_='star') star = star.find('span', class_='rating_num').text.strip() movie['star'] = star movies.append(movie) print(movie,file=mylog)