JAva画像文字認識を実現する2つの方法

4383 ワード

一、tesseract-ocrの使用
　　1. https://github.com/tesseract-ocr/tesseract/wikiインストールパッケージのインストールと簡体字中国語トレーニングファイルのダウンロード
Windows 64ビットインストールパッケージ:tesseract-ocr-w 64-setup-v 4.1.0.20190314.exe
簡体字中国語トレーニングファイル:chi_sim.traineddata約40 M
　　2.トレーニングファイルをchi_sim.traineddataインストールディレクトリの下にあるtessdataディレクトリに格納
　　3.環境変数を設定し、path変数にtesseractインストールディレクトリを追加します.たとえば、C:Program FilesTesseract-OCR
　　4.システム環境変数TESSDATA_を追加PREFIX、値はトレーニングファイルのディレクトリ、例えばC:Program FilesTesseract-OCRtessdata
　　5.Java呼び出しコマンドラインを使用して変換を実行します.コマンドフォーマットは、F:pic>tesseract 6などです.png 66 -l chi_simすなわち、F:picディレクトリの下でtesseractコマンドを使用してchi_を利用するsimトレーニングファイル6.pngファイルは66に変換する.txtファイル

二、tess 4 jの使用
　　1.mavenを使用して必要なjarパッケージをダウンロードします.
　　　　

<dependency>
<groupId>net.java.dev.jnagroupId>
<artifactId>jnaartifactId>
<version>4.1.0version>
dependency>

<dependency>
<groupId>net.sourceforge.tess4jgroupId>
<artifactId>tess4jartifactId>
<version>3.4.0version>
<exclusions>
<exclusion>
<groupId>com.sun.jnagroupId>
<artifactId>jnaartifactId>
exclusion>
exclusions>
dependency>

　　2.簡体字中国語トレーニングファイルをダウンロード:chi_sim.traineddata
　　3.次のコード呼び出しを使用します.
　　

        //       
        File imageFile = new File("F://pic.png");
        //  tess  
        ITesseract instance = new Tesseract();
        //        
        instance.setDatapath("F://tessdata");
        //      
        instance.setLanguage("chi_sim");
        //    
        String result = instance.doOCR(imageFile);

　
転載先:https://www.cnblogs.com/uip001/p/10795621.html

constメンバー関数、インライン関数、友元関数、staticメンバー

MacでGoogle Chromeが起動しない時の対処