[RISE]第5週

6387 ワード

データ収集と前処理2

1.Googleの画像をスクロール

jupyternotebookでは、BeautifulSoupとSeleniumのChrome Webドライバを使用して、Googleで食べ物のキーワードで検索すると、300個の食べ物の画像が追加で格納されています.その後、関連しない画像を直接除去します.

import urllib.request
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.common import exceptions

search_name = ["된장찌개", "명란젓", 
               "당고", "오코노미야끼", "우메보시", "스키야키",
               "훠궈", "동파육", "월병", "마파두부", "쟈오즈", "빠오즈", "만터우", "홍샤오로우", "베이징카오야"]
count = 200


driver = webdriver.Chrome(r"C:\Users\seenw\Downloads\chromedriver_win32\chromedriver.exe")

img_count = len(driver.find_elements_by_tag_name("img"))
driver.implicitly_wait(2)

for j in range(len(search_name)):
    url = "https://www.google.com/search?q=" + str(search_name[j]) + "&hl=ko&tbm=isch"
    driver.get(url)
    folder = "C:/Users/seenw/OneDrive - inu.ac.kr/2021_4학년1학기/RISE/4주차/archive/Dishes/추가하기/" +search_name[j]+ "/"
    for i in range(count):
        img = driver.find_elements_by_tag_name("img")[i]
        img.screenshot(folder + str(3000*j+i)+ ".png")


driver.close()

画像を保存するフォルダ:

スクロールプロセス:

2.谷歌雲に更新

3.データ確認と前処理

前回使用したコードを使用してデータが追加されたことを確認し、ImageDataGeneratorを使用してデータの前処理を行います.
結果1:

結果2:

Reference

この問題について([RISE]第5週), 我々は、より多くの情報をここで見つけました https://velog.io/@the_huistle/RISE-5주차-수행내용

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

Webページのキャプチャ/スクロール<基本>

Apple-CLangコンパイラ-archパラメータ