python爬虫類は何度もタイムアウトを要求します。いくつかの再試験方法(6つ)
6326 ワード
第一の方法
第二の方法
第三の方法
第四の方法
第五の方法
Python再試験モジュールretrying
当時自分でテストした時、ネット上にはたくさんのコピーがありました。retry_という意味です。うむexceptionは関数を指定して、関数は指定異常を返します。やり直します。異常ではないです。ひどいですね
エージェントを取得するアプリケーションを見てみます。(retryingモジュールをテストするためだけです。)
ここでは、python爬虫類について、何度もタイムアウトを要求しています。いくつかの方法を試した文章を紹介します。python爬虫類については、タイムアウトを何度もお願いします。以前の文章を検索したり、次の関連記事を見たりしてください。これからもよろしくお願いします。
headers = Dict()
url = 'https://www.baidu.com'
try:
proxies = None
response = requests.get(url, headers=headers, verify=False, proxies=None, timeout=3)
except:
# logdebug('requests failed one time')
try:
proxies = None
response = requests.get(url, headers=headers, verify=False, proxies=None, timeout=3)
except:
# logdebug('requests failed two time')
print('requests failed two time')
まとめ:コードは冗長で、tryを再試行する回数が多く、コードライン数が多いですが、ログを印刷するのが便利です。第二の方法
def requestDemo(url,):
headers = Dict()
trytimes = 3 #
for i in range(trytimes):
try:
proxies = None
response = requests.get(url, headers=headers, verify=False, proxies=None, timeout=3)
# 302
if response.status_code == 200:
break
except:
# logdebug(f'requests failed {i}time')
print(f'requests failed {i} time')
まとめ:エルゴードコードは明らかに最初より簡単になりました。ログを印刷するのも便利です。第三の方法
def requestDemo(url, times=1):
headers = Dict()
try:
proxies = None
response = requests.get(url, headers=headers, verify=False, proxies=None, timeout=3)
html = response.text()
# todo
pass
return html
except:
# logdebug(f'requests failed {i}time')
trytimes = 3 #
if times < trytimes:
times += 1
return requestDemo(url, times)
return 'out of maxtimes'
まとめ:反復は比較的高く、中間処理コードは他のエラーがあってもやり直しができます。欠点がよく理解できなくて、間違えやすいです。また、tryに含まれている内容が多すぎると、コードの運行速度に不利です。第四の方法
@retry(3) # 3
def requestDemo(url):
headers = Dict()
proxies = None
response = requests.get(url, headers=headers, verify=False, proxies=None, timeout=3)
html = response.text()
# todo
pass
return html
def retry(times):
def wrapper(func):
def inner_wrapper(*args, **kwargs):
i = 0
while i < times:
try:
print(i)
return func(*args, **kwargs)
except:
# func.__name__ say
print("logdebug: {}()".format(func.__name__))
i += 1
return inner_wrapper
return wrapper
まとめ:装飾器の長所は多種の関数が多重化されていて、使いやすいです。第五の方法
#!/usr/bin/python
# -*-coding='utf-8' -*-
import requests
import time
import json
from lxml import etree
import warnings
warnings.filterwarnings("ignore")
def get_xiaomi():
try:
# for n in range(5): # 5
# print(" "+str(n)+" ")
for a in range(5): # 5
print(a)
url = "https://www.mi.com/"
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
"Accept-Encoding": "gzip, deflate, br",
"Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
"Connection": "keep-alive",
# "Cookie": "xmuuid=XMGUEST-D80D9CE0-910B-11EA-8EE0-3131E8FF9940; Hm_lvt_c3e3e8b3ea48955284516b186acf0f4e=1588929065; XM_agreement=0; pageid=81190ccc4d52f577; lastsource=www.baidu.com; mstuid=1588929065187_5718; log_code=81190ccc4d52f577-e0f893c4337cbe4d|https%3A%2F%2Fwww.mi.com%2F; Hm_lpvt_c3e3e8b3ea48955284516b186acf0f4e=1588929099; mstz=||1156285732.7|||; xm_vistor=1588929065187_5718_1588929065187-1588929100964",
"Host": "www.mi.com",
"Upgrade-Insecure-Requests": "1",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36"
}
response = requests.get(url,headers=headers,timeout=10,verify=False)
html = etree.HTML(response.text)
# print(html)
result = etree.tostring(html)
# print(result)
print(result.decode("utf-8"))
title = html.xpath('//head/title/text()')[0]
print("title==",title)
if " " in title:
# print(response.status_code)
# if response.status_code ==200:
break
return title
except:
result = " "
return result
if __name__ == '__main__':
print(get_xiaomi())
第六の方法Python再試験モジュールretrying
#
@retry(stop_max_attempt_number=5)
def get_proxies(self):
r = requests.get(' ')
print(' ')
raise Exception(" ")
print(' = %s' % r.text)
params = dict()
if r and r.status_code == 200:
proxy = str(r.content, encoding='utf-8')
params['http'] = 'http://' + proxy
params['https'] = 'https://' + proxy
# , 100 ( )
@retry(stop_max_attempt_number=5,stop_max_delay=50)
# 50, , 5 !
#
@retry(stop_max_attempt_number=5,wait_fixed=2000)
#
@retry(stop_max_attempt_number=5,wait_random_min=100,wait_random_max=2000)
#
@retry(stop_max_attempt_number=5,wait_incrementing_increment=1000)
# ,
def retry_if_io_error(exception):
return isinstance(exception, IOError)
@retry(retry_on_exception=retry_if_io_error)
def read_a_file():
with open("file", "r") as f:
return f.read()
read_.a_file関数が異常を投げたらretry(u)に行きます。うむexceptionが指している関数は、TrueかFalseかを判断します。Trueであれば、指定されたリトライ回数を実行して、異常を投げます。Falseであれば、直接に例外を投げます。当時自分でテストした時、ネット上にはたくさんのコピーがありました。retry_という意味です。うむexceptionは関数を指定して、関数は指定異常を返します。やり直します。異常ではないです。ひどいですね
エージェントを取得するアプリケーションを見てみます。(retryingモジュールをテストするためだけです。)
ここでは、python爬虫類について、何度もタイムアウトを要求しています。いくつかの方法を試した文章を紹介します。python爬虫類については、タイムアウトを何度もお願いします。以前の文章を検索したり、次の関連記事を見たりしてください。これからもよろしくお願いします。