tesseractベースの文字認識

1833 ワード

tesseractはグーグルのオープンソースの画像をocrで識別できるオープンソースソフトウェアで、主にtesseractをインストールし、音声ライブラリをダウンロードし、音声ライブラリのいくつかの部分を訓練することを含む.そのインストール方法とダウンロード方法には、現在多くの説明があります.
一、tesseract基本操作過程
1.インストールプロセスは自分で選んだバージョンに注意しなければならない.tesseract-4のバージョンは精度が向上したが、構成のホワイトリスト、tesseract-3とtesseract-5のバージョンサポートをサポートしない.また、windowsベースのインストール時にインストールが完了した後、環境変数を2つの部分を含む構成する必要があることが多い.配置exeのパス、2.言語のパスを設定TESSERDATA_PREFIX,之位.traineddataファイルが置かれている道路の力.音声をダウンロードするときは、対応するバージョンの音声パッケージを見つけることに注意してください.音声をダウンロードするリンクは次のとおりです.https://github.com/tesseract-ocr/tessdata.トレーニングフォントに使用するツールはjTessBoxEditorFX-2.0.1.zip.このツールは、フォントを認識する後、認識結果に基づいて認識マークを行い、新しいフォントの生成を訓練することができるが、使用中は環境変数をソフトウェア内部に含むものに変更することに注意しなければならない.exeと言語パッケージに対応するパス.
2.使用:tesseractは使用が簡単で、コマンドラインを直接tesseract filename outputname-l言語名-psm数字(デフォルトは3)config(プロファイル)で使用できます.デフォルトの言語名は英語、デフォルトの出力ファイルフォーマットはtxtです.pythonに基づいて画像を検出することもでき、使用時にpytesseractをインストールするほか、tesseractプラグインと対応する言語インストールパッケージをインストールする必要があります.また、呼び出しインタフェースはpytesseractである.image_to_string(image)は、stringタイプの結果を返します.pythonの実装方法は次のとおりです.

tessdata_dir_config = '--tessdata-dir "D:\Program Files\Tesseract-OCR\\tessdata\" ' \
                      '--psm 6'
pytesseract.pytesseract.tesseract_cmd = 'D:\Program Files\Tesseract-OCR\\tesseract.exe'

card_no = pytesseract.image_to_string(image, lang="chi_sim", config=tessdata_dir_config)

返されるcard_Noはtesseract検出の結果である.
3.精度を高める:tesseractはいくつかの背景を識別するのが比較的に急いできれいで、文字と背景が比較的にはっきりしている文字、例えば白地黒字あるいは黒地白字.画像を入力する際、内部システムでも画像を二値化処理するが、処理方式が統一されているとカバーできないことが多い.従って、一例として精度を向上させることで、ピクチャ入力前にまずピクチャを二値化処理することができる.初回以外にも画像中の文字を切り取ることで、背景の干渉をさらに取り除くことができます.
4.EASTモデルを用いて文字を検出することができ、検出された文字を切り取り、最後に切り取った画像を二値化してtesseractを用いて検出することができ、この方法の利点は文字を含む領域が小さく、二値化の処理が容易であることである.

Rasa訓練データフォーマットnlu.jsonとnlu.md相互回転

RevelのTutorialに挑戦してみる