Web Scrapper_04


3.就職情報収集


3.1 CSVファイルの作成

import csv     							# 3.1.1

def save_to_file(jobs):
    file = open("jobs.csv", mode="w")   			# 3.1.2
    writer = csv.writer(file)   				# 3.1.3
    writer.writerow(["title", "company", "location", "link"])   # 3.1.4
    for job in jobs:
        writer.writerow(list(job.values()))     		# 3.1.5
    return
3.1.1カンマ区切り値(CSV)は、複数のフィールドをカンマ(,)で区切ったテキストデータとテキストファイルである.
3.1.2書き込みファイルの作成
3.1.3 csvを「file」ファイルに書き込む
3.1.4最初の行に記入する内容
3.1.5キー値以外の値のみ取得する

3.2プライマリ・ファイルへの集約

from indeed import get_jobs as get_indeed_jobs		# 3.2.1
from so import get_jobs as get_so_jobs			# 3.2.2
from save import save_to_file				# 3.2.3

so_jobs = get_so_jobs()
indeed_jobs = get_indeed_jobs()
jobs = so_jobs + indeed_jobs
save_to_file(jobs)
3.2.1. 確かに、ウェブサイトの就職情報抽出ファイル(確か.py)からget jobs()を取得する
def get_jobs():
    last_page = get_last_page()
    jobs = extract_jobs(last_page)
    return jobs
3.2.2. StackOverflowの求職情報抽出ファイル(so.py)からget jobs()をロード
def get_jobs():
    last_page = get_last_page()
    jobs = extract_jobs(last_page)
    return jobs
3.1.3. csv生成ファイル(save.py)からsave to file(jobs)を読み込む

3.3結果


プライマリ・ファイルを実行すると、2つのWebサイトの求職情報がフォルダにjobsを表示します.csvファイルから生成され、excelで参照できます.