Automation360 - OCRアクションの日本語向け調整


Automation360 OCRアクションの日本語向け調整

Automation360のOCRアクションは、ABBYY社のエンジンが用いられています。
最近のリリースでは、下記の様にロケールとして「日本語」を選択することが可能となっていますが、
正直、満足できる認識結果にはならないかと思います。

OCRアクション

そこで、
ロケール選択の上にある、プロフィールを作成して適用してみます。
色々パラメータがあるのですが、まず、言語を指定しています。

TextLanguage=JapaneseModern

ABBYYには、JapaneseとJapaneseModernという2種類があり、それぞれ、もともと日本語向けに作られていたJapaneseモデルと、用語の数は少ないが古い文献等で使われるような文字を中心に省くことで精度の向上が図られたJapaneseModernというモデルがありますので、ここではJapaneseModernを設定しています。
他にも、各種パラメータがありますので適宜調整しています。認識対象によっては対象フォントの指定も変えたほうが良いかもしれません。

AbbyyProfile.ini
[ObjectsExtractionParams]
DetectPorousText = TRUE
DetectTextOnPictures = TRUE
EnableAggressiveTextExtraction = TRUE
FastObjectsExtraction = FALSE
ProhibitColorImage = FALSE
RemoveGarbage = TRUE
RemoveTexture = FALSE

[PageAnalysisParams]
DetectPictures = TRUE
EnableTextExtractionMode = TRUE
ProhibitModelAnalysis = FALSE

[PrepareImageMode]
CorrectSkew = FALSE
DiscardColorImage = FALSE
UseFastBinarization = FALSE

[RecognizerParams]
FastMode = FALSE
TextLanguage=JapaneseModern

[SynthesisParamsForDocument]
DetectDocumentStructure = TRUE
DetectFontFormatting = FALSE

[SynthesisParamsForPage]
DetectFontFormattingAtPageLevel = TRUE
DetectTextColor = TSPV_Yes

プロフィール摘要の効果は?

はい、一目瞭然ですね。
皆さんも、プロフィール活用してみてください!
(A360(A2019)画面上「プロフィール」と訳されてるのでそう書いてきましたが、「プロファイル」の方がしっくりくるのは私だけ??)

対象 ロケール指定のみ プロフィール有り