同時にウェブサイトのピクチャーを登ります
1762 ワード
あるサイトの画像:
を通じてhttps://photo.fengniao.com/#p=4」あるテーマに入ります.
表示されているのは数十枚のサムネイルの小さな画像と対応するジャンプアドレスで、小さな画像をクリックして大きな画像を取得します.
小画像の背後にある大画像を取得するには、シリアルメソッドで大図リンクに順次アクセスして保存すると、非常に時間がかかります.
1,マルチスレッドで画像を取得する
転載先:https://www.cnblogs.com/guxh/p/10351655.html
を通じてhttps://photo.fengniao.com/#p=4」あるテーマに入ります.
表示されているのは数十枚のサムネイルの小さな画像と対応するジャンプアドレスで、小さな画像をクリックして大きな画像を取得します.
小画像の背後にある大画像を取得するには、シリアルメソッドで大図リンクに順次アクセスして保存すると、非常に時間がかかります.
1,マルチスレッドで画像を取得する
import requests
from lxml import etree
from concurrent.futures import ThreadPoolExecutor
from functools import partial
def get_paths(path, regex, code):
"""
:param path:
:param regex:
:param code:
:return: ,
"""
resp = requests.get(path)
if resp.status_code == 200:
select = etree.HTML(resp.text)
paths = select.xpath(regex)
return paths
def save_pic(path, pic_name, directory):
"""
:param pic_name:
:param path:
:param directory:
:return:
"""
resp = requests.get(path, stream=True)
if resp.status_code == 200:
with open('{}/{}.jpg'.format(directory, pic_name), 'wb') as f:
f.write(resp.content)
if __name__ == '__main__':
paths = get_paths('https://photo.fengniao.com/#p=4', '//a[@class="pic"]/@href', 'utf-8')
paths = ['https://photo.fengniao.com/' + p for p in paths]
#
p = partial(get_paths, regex='//img[@class="picBig"]/@src', code='utf-8') # ,
with ThreadPoolExecutor() as excutor:
res = excutor.map(p, paths)
big_paths = [i[0] for i in res] #
#
p = partial(save_pic, directory='fn_pics') #
with ThreadPoolExecutor() as excutor:
res = excutor.map(p, big_paths, range(len(big_paths)))
[r for r in res]
転載先:https://www.cnblogs.com/guxh/p/10351655.html