Python爬虫小试——爬取图片

6338 ワード

Python

Anaconda統合開発環境を直接インストールすれば、ソースコードを直接移行できます.
そうでなければ、画像を這い出す前にいくつかのパッケージをインストールします.
1つ目:bs4パッケージは、BeautifulSoapを使用する必要があります.強力なWeb解析ツールです.

pip3 install bs4

2つ目:requestsパッケージ、インストール手順は上記のように、Webソースコードをキャプチャするために使用されます.
コードは次のとおりです.

import requests,os
from bs4 import BeautifulSoup
from urllib.request import urlopen

images_dir = "images/"      #       
if not os.path.exists(images_dir):     
    os.mkdir(images_dir)
url = "http://www.baidu.com/"    #url
html = requests.get(url)             #  html  
html.encoding = 'utf-8'              #    utf-8
sp = BeautifulSoup(html.text,'html.parser') #    
links = sp.find_all(["img",'a'])     #    img  
index = 0
for link in links:
    src = link.get('src')           #  src
    if src != None and 'https' in src:  #  src
        if 'jpg' in src:
            img_name = str(index+1) + ".jpg"
        elif 'png' in src:
            img_name = str(index+1) + ".png"        
        image = urlopen(src)          #url open
        f = open(os.path.join(images_dir,img_name),"wb")  #    
        f.write(image.read())      #    
        f.close()
        print('%d finish
'%(index+1))
        index = index + 1
print("OK")

AWS CLIのプロファイル切り替えをいい感じにする

pythonマルチスレッドによるWebページのキャプチャ