【PDFminer】LTCharを理解する(+LTRect)


PDFminerを使うと色々な情報が抜き出せますが、それぞれがどこにあたる情報なのかいまいちよくわからない。
ということで、PDFminerで読める情報はなんなのか解読を試みようということです。

2019/10/11
とりあえずわかっているところしか書いてません、、、詳しい方いたら教えて下さい!!
2019/10/25
別のPDFを読んでみたら前半の座標部分の計測基準が変わってしまいびっくりしています…
もしかすると決まった規則はないのかもしれません。あくまで一例としてご覧ください。

2020/03/26
久々に読み直してみたら読み込み結果として誤っている部分があることが判明しました。
②の指している箇所に変更があります。こちらでほぼあっていると思います。大変失礼しました…

LTCharの出力

今回扱うのは1文字だけしか書いてないシンプルなPDF

このPDFからLTCharを抜き出してきた結果がこちら


[<LTChar 117.921,110.896,182.079,223.044 matrix=[64.16,0.00,0.00,64.16, (117.92,132.65)] font='FQUXDR+KozGoPr6N-Regular' adv=1.0 text='ゼ'>] 

分解してみた

LTChar
①117.921,②110.896,③182.079,④223.044
matrix=[⑤64.16,0.00,0.00,⑥64.16, (117.92,132.65)]
font='FQUXDR+KozGoPr6N-Regular' adv=1.0 text='ゼ'>

画像はPDFをMacのビューアーで選択した状態。単位はppx(ピクセル)。
この状態での各ポイントへのX座標とY座標の様子。

後半は、文字そのもののフォントサイズ

5と6の間の数値は、斜体にすると3つ目の数値が変わるので傾きとかなのかもしれないです。

その他、フォントの前の文字列などは不明…
またわかったら追記します。

おまけ:LTRect

Rectの場合は文字の時とは違って選択した状態で〜ではなく、素直にそのままの数値…
Rectに限らず、イラレでのPDF作成時点で裁ち落とし(周りの赤い線)が設定されている場合は、裁ち落としを含めた距離になる様子