Pythoon 3.6 tesseract-ocrを使用する正しい方法


Tesseractの紹介
tesseractはいいOCRエンジンです。今の問題は最新の中国語資料が比較的少ないです。時代遅れで不正確な情報が多いです。
tesseractはgoogleがサポートするオープンソースのocrプロジェクトで、そのプロジェクトの住所:https://github.com/tesseract-ocr/tesseract、現在の最新のソースコードはここでダウンロードできます。
実際にtesseract ocrを使うには、2つの方法があります。1.ダイナミックライブラリ方式libtesseract  2.プログラム方式のtesseract.exeを実行する
環境
  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-30.00 dev.exe
  • Windows 10
  • インストール
    1.tesseract-orc
  • Tesseract:オープンソースのOCR識別エンジンは、初期TesseractエンジンがHP実験室によって開発され、その後オープンソースソフトウェア業に貢献し、Googleを通じて改善され、バグを除去し、最適化され、再リリースされます。
  • インストールする時は自分でインストール言語を選択してください。他の国の言語はインストールを選択しなくてもいいです。中国語と英語と日本語をインストールしました。インストールプロセスは他のソフトウェアと同じです。
    2.pytesseractpip install pytesseract環境を設定
    1.tesseract-orcパスを設定する
    デフォルトではtesseract-orcはシステムのパスに追加されません。このように使用中にFileNotFoundError: [WinError 2] システムで指定されたファイルエラーが発生します。
    解決方法:
  • 方法1:C:\Program Files(x 86)\Tesseract-OCRをシステムパスに追加する(インストールプロセスによって経路が異なる)
  • 方法2:pytesseract.pyファイル
  • を修正する。
    トレーニングセットの位置を設定します。
    ダウンロードしたデフォルトのトレーニングセットもシステムパスに追加されていません。エラーが発生します。
    
    pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')
    
    解決方法:
    環境変数TESSDATA_PREFIX
    C:\Program Files (x86)\Tesseract-OCR\tessdata
    を設定します。
    インスタンスプログラム
    
    import pytesseract
    from PIL import Image
    image = Image.open('test.png')
    code = pytesseract.image_to_string(image)
    print(code)
    詳細な参照:https://pypi.python.org/pypi/pytesseract
    締め括りをつける
    以上はこの文章の全部の内容です。本文の内容は皆さんの学習や仕事に対して一定の参考学習価値を持ってほしいです。ありがとうございます。もっと知りたいなら、下のリンクを見てください。