[RISE]第5週
データ収集と前処理2
1.Googleの画像をスクロール
jupyternotebookでは、BeautifulSoupとSeleniumのChrome Webドライバを使用して、Googleで食べ物のキーワードで検索すると、300個の食べ物の画像が追加で格納されています.その後、関連しない画像を直接除去します.
import urllib.request
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.common import exceptions
search_name = ["된장찌개", "명란젓",
"당고", "오코노미야끼", "우메보시", "스키야키",
"훠궈", "동파육", "월병", "마파두부", "쟈오즈", "빠오즈", "만터우", "홍샤오로우", "베이징카오야"]
count = 200
driver = webdriver.Chrome(r"C:\Users\seenw\Downloads\chromedriver_win32\chromedriver.exe")
img_count = len(driver.find_elements_by_tag_name("img"))
driver.implicitly_wait(2)
for j in range(len(search_name)):
url = "https://www.google.com/search?q=" + str(search_name[j]) + "&hl=ko&tbm=isch"
driver.get(url)
folder = "C:/Users/seenw/OneDrive - inu.ac.kr/2021_4학년1학기/RISE/4주차/archive/Dishes/추가하기/" +search_name[j]+ "/"
for i in range(count):
img = driver.find_elements_by_tag_name("img")[i]
img.screenshot(folder + str(3000*j+i)+ ".png")
driver.close()
画像を保存するフォルダ:スクロールプロセス:
2.谷歌雲に更新
3.データ確認と前処理
前回使用したコードを使用してデータが追加されたことを確認し、ImageDataGeneratorを使用してデータの前処理を行います.
結果1:
結果2:
Reference
この問題について([RISE]第5週), 我々は、より多くの情報をここで見つけました https://velog.io/@the_huistle/RISE-5주차-수행내용テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol