JAva画像文字認識を実現する2つの方法

4383 ワード

一、tesseract-ocrの使用
  1.    https://github.com/tesseract-ocr/tesseract/wikiインストールパッケージのインストールと簡体字中国語トレーニングファイルのダウンロード
Windows 64ビットインストールパッケージ:tesseract-ocr-w 64-setup-v 4.1.0.20190314.exe
簡体字中国語トレーニングファイル:chi_sim.traineddata約40 M
  2.トレーニングファイルをchi_sim.traineddataインストールディレクトリの下にあるtessdataディレクトリに格納
  3.環境変数を設定し、path変数にtesseractインストールディレクトリを追加します.たとえば、C:Program FilesTesseract-OCR
  4.システム環境変数TESSDATA_を追加PREFIX、値はトレーニングファイルのディレクトリ、例えばC:Program FilesTesseract-OCRtessdata
  5.Java呼び出しコマンドラインを使用して変換を実行します.コマンドフォーマットは、F:pic>tesseract 6などです.png 66 -l chi_simすなわち、F:picディレクトリの下でtesseractコマンドを使用してchi_を利用するsimトレーニングファイル6.pngファイルは66に変換する.txtファイル
 
二、tess 4 jの使用
  1.mavenを使用して必要なjarパッケージをダウンロードします.
    
<dependency>
<groupId>net.java.dev.jnagroupId>
<artifactId>jnaartifactId>
<version>4.1.0version>
dependency>

<dependency>
<groupId>net.sourceforge.tess4jgroupId>
<artifactId>tess4jartifactId>
<version>3.4.0version>
<exclusions>
<exclusion>
<groupId>com.sun.jnagroupId>
<artifactId>jnaartifactId>
exclusion>
exclusions>
dependency>

  2.簡体字中国語トレーニングファイルをダウンロード:chi_sim.traineddata
  3.次のコード呼び出しを使用します.
  
        //       
        File imageFile = new File("F://pic.png");
        //  tess  
        ITesseract instance = new Tesseract();
        //        
        instance.setDatapath("F://tessdata");
        //      
        instance.setLanguage("chi_sim");
        //    
        String result = instance.doOCR(imageFile);        

 
 
 
転載先:https://www.cnblogs.com/uip001/p/10795621.html