Python中国語テキスト認識+ピクチャテーブル認識

1666 ワード

04_機械学習

from PIL import ImagePytesseract-windowsインストール
Tesseractのgithubアドレス:tesseract-ocr/tesseract
Tesseractのインストール:
(1)Tesseract自体はwindowsのインストールパッケージを持っていませんが、サードパーティ製のパッケージのwindowsインストールパッケージを指定しています.wikiに説明があります.皆さんは直接このアドレスでダウンロードできます:Index of/tesseract
ダウンロード後はexeインストールパッケージで、インストールを右クリックすればいいです.インストールが完了したら、環境変数を構成し、システム変数のpathを編集し、次のインストールパスを追加します.
C:\Program Files\Tesseract-OCR
インストールが完了したら、直接cmd入力:

  ：
tesseract -v
    ，     ：
tesseract 4.0.0-beta.1-108-gf291

エラーが発生する可能性があります1:
Windowsの下でpytesseractモジュールを使用してテキスト認識にエラーが発生しました.
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your path
解決:コードに次のように追加します.

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

(引用符はtesseract.exeのパスですが、インストールされていない場合は、次の手順を参照してください)
PS:pytesseractの変更を調べるかもしれません.pyのtesseract_cmdですが、卵用はありません.win 10の下で異なるIDEで異なる痙攣が発生するはずです.私はJupyterを使っています.
発生する可能性のあるエラー2:
やっとパスエラーを報告しないと、文中字庫がないことに気づきました.
'F aeAma PRB tks ; arteg kn)R1065°7925000~ ae6108 8 HERTICH A HIED 56. 825K1120+557 eS1) 25K1033+938— ayS304 28 CMR MAIR 30. 567k1094+905 ee'
インストール:
.traineddataファイルを**\Tesseract-OCR\tessdataパスの下にコピーします.

from  PIL import  Image
import pytesseract
import  cv2 as cv
img = Image.open('E:/test.png')
pytesseract.pytesseract.tesseract_cmd = r'C:/Program Files/Tesseract-OCR/tesseract.exe'
s = pytesseract.image_to_string(img, lang='chi_sim')

ついに、他の方法で表認識を済ませ、ウィジェットの先端を引っ張り始めた.

Pythonの21日目の努力--モジュール1

Selenium＋ヘッドレスブラウザ(Chrome)によるスクリーンショットの自動取得