[RISE]第5週


データ収集と前処理2


1.Googleの画像をスクロール


jupyternotebookでは、BeautifulSoupとSeleniumのChrome Webドライバを使用して、Googleで食べ物のキーワードで検索すると、300個の食べ物の画像が追加で格納されています.その後、関連しない画像を直接除去します.
import urllib.request
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.common import exceptions

search_name = ["된장찌개", "명란젓", 
               "당고", "오코노미야끼", "우메보시", "스키야키",
               "훠궈", "동파육", "월병", "마파두부", "쟈오즈", "빠오즈", "만터우", "홍샤오로우", "베이징카오야"]
count = 200


driver = webdriver.Chrome(r"C:\Users\seenw\Downloads\chromedriver_win32\chromedriver.exe")

img_count = len(driver.find_elements_by_tag_name("img"))
driver.implicitly_wait(2)

for j in range(len(search_name)):
    url = "https://www.google.com/search?q=" + str(search_name[j]) + "&hl=ko&tbm=isch"
    driver.get(url)
    folder = "C:/Users/seenw/OneDrive - inu.ac.kr/2021_4학년1학기/RISE/4주차/archive/Dishes/추가하기/" +search_name[j]+ "/"
    for i in range(count):
        img = driver.find_elements_by_tag_name("img")[i]
        img.screenshot(folder + str(3000*j+i)+ ".png")


driver.close()
画像を保存するフォルダ:

スクロールプロセス:

2.谷歌雲に更新



3.データ確認と前処理


前回使用したコードを使用してデータが追加されたことを確認し、ImageDataGeneratorを使用してデータの前処理を行います.
結果1:

結果2: