「請求書識別アルゴリズムの基礎知識」

1498 ワード

手元の2つのOCRアルゴリズムは類似のアルゴリズムとフレームワークを使用しているが,コードにはわずかな違いがあるように見える.このコードを研究する準備をして、この文字は基本的な知識を記録して、ノートにします.
1.PIL.Image.convert("L")

pythonの画像処理ライブラリPILは、異なる画像フォーマットの変換を実現するために使用される.
PILは、通常のRGB、BMP、JPG形式のピクチャを処理し、そのまま「RGB」モードに変換する.
しかし、グレースケールマップでは、PILは「L」型に変換され、モード「L」はグレー画像に変換され、各画素は8 bit、0は黒、255は白、その他の数字は異なるグレースケールを表す.PILでは、モード「RGB」から「L」への変換は、以下の式に従って変換される.
L = R * 299/1000 + G * 587/1000+ B * 114/1000
"""
YOLO_v3 Model Defined in Keras.
Reference: https://github.com/qqwweee/keras-yolo3.git
"""

手元にある2つの項目が使用されているソースコードであることを確認しました.
3.私が想像していたようなモデル全体がKerasを使っているわけではありません!!!
kerasはkeras-yolo 3で、文字検出用です!!!
ocrはocrで、pytorchで実現したもので、CRNNに属して、文字認識用です!!!
########################    ################################################
##       
IMGSIZE = (608, 608)  ## yolo3       
yoloTextFlag = 'keras'  ##keras,opencv,darknet,     keras>darknet>opencv
############## keras yolo  ##############
keras_anchors = '8,11, 8,16, 8,23, 8,33, 8,48, 8,97, 8,139, 8,198, 8,283'
class_names = ['none', 'text', ]
kerasTextModel = os.path.join(pwd, "models", "text.h5")  ##keras        


######################OCR  ###################################################
ocrFlag = 'torch'  ##ocr      keras  torch opencv  

4.yolo_v3.
yolo_v 3は、darknet−53を修正し、上位52層のみを取得する現在認識率の高いターゲット検出深さ学習アルゴリズムである.