google画像からすぐにスクレイピング!
はじめに
画像検索からいちいち保存やらなんやらの画像収集がめんどくさいので、探してみたらいいドライバがあったので自己満でまとめてみる。
準備
google_images_dwonloadをインストール
ページ⇒
$pip install google_images_download
$pip install os
$pip install glob
$pip install chromedriver
が必要となるのでインストールしておく。
chromedriverのなかに、アプリケーションの"chromedriver"がなければ、
https://chromedriver.chromium.org/downloads
よりダウンロードして、chromedriverのファイルの中に保管。
以上で、大体の準備完了
環境
・pycharm
・python 3.7.4
・windows10
ソースコード
import文
from google_images_download import google_images_download
import glob
import os
中身
今回は、検索ワードを"ONE OK ROCK"とする。
limit = 100 とし、画像の枚数を100枚とする。
config = {
"Records": [
{
"keywords": "ONE OK ROCK LIVE",
"no_numbering": True,
"limit": 100,
"output_directory": "images",
"image_directory": "ONE OK ROCK",
"chromedriver": "C\\[path to chromedirver]\chromedriver\chromedriver.exe",
}
]
}
chromedriverまでのpathをしっかりと書くこと。
response = google_images_download.googleimagesdownload()
for rc in config["Records"]:
response.download(rc)
一応、gif画像は抜けにする。(めんどくさいので)
gifImgs = glob.glob("images" + os.sep + "*" + os.sep + "*.gif")
print(f"removing gif files: {len(gifImgs)} files")
_ = [os.remove(f) for f in gifImgs]
上記のものを順におこなうと、取得できる。
結果
さいごに
このスクレイピングは情報収集にはいいものとなっていて、非常に便利である。
ページからの画像取得とはだいぶ異なるのでそれについては別記事で書こうと思う。
簡単にしか書いてないので、くわしいことは調べてください。
Author And Source
この問題について(google画像からすぐにスクレイピング!), 我々は、より多くの情報をここで見つけました https://qiita.com/jin237/items/485ca29c8e5880995bd0著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .