OCR-テキスト画像合成ツール


1. Text Recognition Data Generator


Githubアドレス:https://github.com/Belval/TextRecognitionDataGenerator
公式ドキュメント:https://textrecognitiondatagenerator.readthedocs.io/en/latest/index.html
インストール:
# pip   ,     
pip install trdg -i https://pypi.mirrors.ustc.edu.cn/simple/


# git clone
git clone https://github.com/Belval/TextRecognitionDataGenerator

以下は個人のニーズに応じて行います.
git clone解凍後/trdg/binインストールディレクトリに入ります:
mv trdg ../run.py

cd ..

vim run.py
#    run.py   from trdg import,      import

vim data_generator.py
#   ,         from trdg import,    import

pictures/フォルダには背景図が格納され、生成された合成画像を豊富にするために多くの画像を追加することができます.
fonts/フォルダ内cn/en/はそれぞれ中、英語のフォントファイル(.ttfフォーマット)を保存し、自分でネット上で異なるttfファイルをダウンロードしてフォルダ内に入れることができます.
string_generator.pyは画像上のテキストをどのように選択するかを定義し、自分で定義することができる(ブロガーはCentos 7サーバーで中国語が文字化けしているようでstringの符号化しか修正できない)
data_generator.pyは所定のパラメータに従って画像を生成するので、中にtry/exceptを加えるほうがよくて、大規模な合成データは万一1つのcaseが間違っていたら再生成しなければならなくて、面倒で、それに応じてbin/trdgファイルの中で相応の生成labelsを修正します.txtのコードは、一致を保証します(ここでは保存されている中国語のテキストが文字化けしている可能性もありますが、そうであればstringのコーデックも修正します)
生成コマンド(例、詳細は公式ドキュメントを参照):
python trdg -l cn -c 1000000 -d 1 -rs -b 3 -w 20 -bl 1 -rbl -tc '#000000,#888888' -f 64 -t 32 --output_dir 'sin-100w'

-l cn:languageは中国語
-c 100000:100000枚の図を生成
-d 1:文字は正弦関数曲線で分布する(0は曲げず、1はsin、2はcos)
-rs:画像文字をランダムに選択します.
-b 3:背景画像picturesフォルダの画像からランダムに切り取る(0はガウスホワイトノイズ背景、1はホワイトバックグラウンド、2はquasicrystal、3はカスタムピクチャ)
-bl 1-rbl:ランダムブラー、1はブラーkernel size
-tc'#00000,#8888':色変化区間
-f 64:文字画像の水平分布の高さ(画素64)
--output_dir‘sin-100 w’:出力フォルダ

2. Text Render


Githubアドレス:https://github.com/Sanster/text_renderer
githubのREADMEを参照.md.