Python爬虫小试——爬取图片
6338 ワード
Anaconda統合開発環境を直接インストールすれば、ソースコードを直接移行できます.
そうでなければ、画像を這い出す前にいくつかのパッケージをインストールします.
1つ目:
2つ目:
コードは次のとおりです.
そうでなければ、画像を這い出す前にいくつかのパッケージをインストールします.
1つ目:
bs4
パッケージは、BeautifulSoapを使用する必要があります.強力なWeb解析ツールです.pip3 install bs4
2つ目:
requests
パッケージ、インストール手順は上記のように、Webソースコードをキャプチャするために使用されます.コードは次のとおりです.
import requests,os
from bs4 import BeautifulSoup
from urllib.request import urlopen
images_dir = "images/" #
if not os.path.exists(images_dir):
os.mkdir(images_dir)
url = "http://www.baidu.com/" #url
html = requests.get(url) # html
html.encoding = 'utf-8' # utf-8
sp = BeautifulSoup(html.text,'html.parser') #
links = sp.find_all(["img",'a']) # img
index = 0
for link in links:
src = link.get('src') # src
if src != None and 'https' in src: # src
if 'jpg' in src:
img_name = str(index+1) + ".jpg"
elif 'png' in src:
img_name = str(index+1) + ".png"
image = urlopen(src) #url open
f = open(os.path.join(images_dir,img_name),"wb") #
f.write(image.read()) #
f.close()
print('%d finish
'%(index+1))
index = index + 1
print("OK")