requests爬虫類が使用するIPエージェントが有効になっていません(解決方法)

946 ワード

requestsエージェントによるネットワーク爬虫類、またはscrapyによるネットワーク爬虫類の場合、IPエージェント方式の1つのIPマルチアクセスによるIPアドレスの閉鎖は避けられず、結果的にデータを取得できないという気まずい思いをする.しかし、IPエージェントが無効になる場合があります.
解決策は次のとおりです.
リクエストされたurlアドレスが使用するプロトコルを表示するときにhttpまたはhttpを表示します.私たちが設定したエージェントipのプロトコルも同じプロトコルでなければなりません.そうしないと、エージェントは有効になりません.
エージェントメソッドは次のとおりです.
#   ip      ,,
import requests
from lxml import etree

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0",
}
url = 'http://ip.tool.chinaz.com/'
proxies = {
    "http": "http://120.78.185.175:8118"
}

wb_data = requests.get(url=url, headers=headers, proxies=proxies)
content = etree.HTML(wb_data.text)
print(content.xpath('//*[@id="rightinfo"]/dl/dd[1]/text()')[0])

私たちはhttps://www.xicidaili.comIPリストを取得する(無料のipエージェントですが、より速いエージェントipアドレスが必要です)