「請求書識別アルゴリズムの基礎知識」
1498 ワード
手元の2つのOCRアルゴリズムは類似のアルゴリズムとフレームワークを使用しているが,コードにはわずかな違いがあるように見える.このコードを研究する準備をして、この文字は基本的な知識を記録して、ノートにします.
pythonの画像処理ライブラリPILは、異なる画像フォーマットの変換を実現するために使用される.
PILは、通常のRGB、BMP、JPG形式のピクチャを処理し、そのまま「RGB」モードに変換する.
しかし、グレースケールマップでは、PILは「L」型に変換され、モード「L」はグレー画像に変換され、各画素は8 bit、0は黒、255は白、その他の数字は異なるグレースケールを表す.PILでは、モード「RGB」から「L」への変換は、以下の式に従って変換される.
L = R * 299/1000 + G * 587/1000+ B * 114/1000
手元にある2つの項目が使用されているソースコードであることを確認しました.
3.私が想像していたようなモデル全体がKerasを使っているわけではありません!!!
kerasはkeras-yolo 3で、文字検出用です!!!
ocrはocrで、pytorchで実現したもので、CRNNに属して、文字認識用です!!!
4.yolo_v3.
yolo_v 3は、darknet−53を修正し、上位52層のみを取得する現在認識率の高いターゲット検出深さ学習アルゴリズムである.
1.PIL.Image.convert("L")
pythonの画像処理ライブラリPILは、異なる画像フォーマットの変換を実現するために使用される.
PILは、通常のRGB、BMP、JPG形式のピクチャを処理し、そのまま「RGB」モードに変換する.
しかし、グレースケールマップでは、PILは「L」型に変換され、モード「L」はグレー画像に変換され、各画素は8 bit、0は黒、255は白、その他の数字は異なるグレースケールを表す.PILでは、モード「RGB」から「L」への変換は、以下の式に従って変換される.
L = R * 299/1000 + G * 587/1000+ B * 114/1000
"""
YOLO_v3 Model Defined in Keras.
Reference: https://github.com/qqwweee/keras-yolo3.git
"""
手元にある2つの項目が使用されているソースコードであることを確認しました.
3.私が想像していたようなモデル全体がKerasを使っているわけではありません!!!
kerasはkeras-yolo 3で、文字検出用です!!!
ocrはocrで、pytorchで実現したもので、CRNNに属して、文字認識用です!!!
######################## ################################################
##
IMGSIZE = (608, 608) ## yolo3
yoloTextFlag = 'keras' ##keras,opencv,darknet, keras>darknet>opencv
############## keras yolo ##############
keras_anchors = '8,11, 8,16, 8,23, 8,33, 8,48, 8,97, 8,139, 8,198, 8,283'
class_names = ['none', 'text', ]
kerasTextModel = os.path.join(pwd, "models", "text.h5") ##keras
######################OCR ###################################################
ocrFlag = 'torch' ##ocr keras torch opencv
4.yolo_v3.
yolo_v 3は、darknet−53を修正し、上位52層のみを取得する現在認識率の高いターゲット検出深さ学習アルゴリズムである.