python 3 pytesseractによる検証コード識別

5094 ワード


pytesseractの紹介


1.Python-tesseractはgoogle's Tesseract-OCRに基づく独立したパッケージである.
2.Python-tesseract機能は、画像ファイルの文字を識別し、戻りパラメータとして識別結果を返す機能である.
3.Python-tesseractはデフォルトでtiff、bmp形式の画像をサポートしており、PILをインストールした後でのみjpeg、gif、pngなどの他の画像フォーマットをサポートすることができます
 

pytesseractインストール


1.Python-tesseractはpython 2をサポートする.5以降
2.Python-tesseractは、より多くの画像フォーマットをサポートするためにPIL(Python Imaging Library)をインストールする必要があります.
pip install pillow、pip install PIL

3.Python-tesseractはtesseract-ocrインストールパッケージをインストールする必要があります:WindowsはTesseract-OCR 4.00をインストールし、環境変数を構成します
4.取付pytesseract: pip install pytesseract 

pytesseract使用


手順の使用

> try:
> import Image
> except ImportError:
> from PIL import Image
> import pytesseract
> print(pytesseract.image_to_string(Image.open('test.png')))
> print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra'))

 

QRコードの識別

import pytesseract
from PIL import Image

image = Image.open("code.png")
code = pytesseract.image_to_string(image)
print(code)#  :6067

 

爬虫類の識別のウェブサイトのQRコード

import pytesseract
from PIL import Image
import requests
 
def Vercode():
    url = "http://www.xxxx"
    header = {"user_agent":"Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"}
    r =requests.get(url,headers=header,timeout=5)
    with open('vcode.jpg','wb') as pic:
        pic.write(r.content)
    im = pytesseract.image_to_string(Image.open('vcode.jpg'))
    im = im.replace(' ', '')
    if im != '':
        return im
    else:
        return Vercode()
print Vcode()

 
refer:
pyhton検証コード識別
pythonでpytesseractを呼び出してWebサイトの検証コードを識別