python爬虫類の自動登録と認証コードの識別


爬虫類でウェブサイトのデータを取る時、一部のサイトのいくつかのキーデータの取得はアカウントを使って登録する必要があります。ここではrequestsを使って登録要求を送ることができます。Sessionオブジェクトで関連Cookieを自動的に処理します。
また、ログイン時に、認証コードを入力するように要求するサイトがあります。比較的簡単な検証コードは直接pytesserで識別できます。複雑な検証コードはそれぞれの特徴に基づいて自分でデータを採取して分類器を訓練します。
CSDNサイトの登録を例にとって、ここではPythonのrequestsライブラリとpytesserライブラリで登録関数を書きました。認証コードを入力する場合、関数はまず認証コードをダウンロードして、pytesserで認証コードを識別して登録します。CSDN登録の検証コードに対して、pytesserの識別率は高いです。
その中のpytesserのダウンロードアドレスはダウンロードです。
具体的なコードは以下の通りです。

#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {'gid': 1}

def parse(s, html, idx):
 result = {}

 tree = etree.HTML(html)
 try:
 result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
 result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]
 result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0]
 except IndexError, e:
 return None

 valimg = None
 valimgs = tree.xpath('//img[@id="yanzheng"]/@src')
 if len(valimgs) > 0:
 valimg = valimgs[0]

 validateCode = None
 if valimg:
 fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'
 config['gid'] = config['gid'] + 1
 ri = s.get("https://passport.csdn.net" + valimg)
 with open(fname, 'wb') as f:
  for chk in ri:
  f.write(chk)
  f.close()
 validateCode = pytesser.image_file_to_string(fname)
 validateCode = validateCode.strip()
 validateCode = validateCode.replace(' ', '')
 validateCode = validateCode.replace('
', '') result['validateCode'] = validateCode return result def login(usr, pwd, idx): s = requests.Session() r = s.get('https://passport.csdn.net/account/login', headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', }) while True: res = parse(s, r.text, idx) if res == None: return False url = 'https://passport.csdn.net' + res['path'] form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],} if res.has_key('validateCode'): form['validateCode'] = res['validateCode'] s.headers.update({ 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'passport.csdn.net', 'Origin': 'https://passport.csdn.net', 'Referer': 'https://passport.csdn.net/account/login', 'Upgrade-Insecure-Requests': 1, }) r = s.post(url, data=form) tree = etree.HTML(r.text) err_strs = tree.xpath('//span[@id="error-message"]/text()') if len(err_strs) == 0: return True err_str = err_strs[0] print err_str err = err_str.encode('utf8') validate_code_err = ' ' usr_pass_err = ' , ' try_later_err = ' 5 , 10 ' if err[:5] == validate_code_err[:5]: pass elif err[:5] == usr_pass_err[:5]: return False elif err[:5] == try_later_err[:5]: return False else: return True if __name__ == '__main__': main(sys.argv[1], sys.argv[2], 0)
以上が本文の全部です。皆さんの勉強に役に立つように、私たちを応援してください。