D-man bot アップデート計画 2021 文字認識編


はじめに

2021年のD言語くん Updateによると、今年は441件と例年と比較して大きく減少したことが明らかになりました。

IT系マスコット群雄割拠の昨今、D言語くんのプレゼンスが下がっていると言える…でしょうか?
すべてのD言語くん情報を補足すべく、今回はbotのアップデートを計画します。

やりたいこと

例えば以下のツイートですが、明らかにD言語くんに関するツイートですが、ハッシュタグ#DLangMan がなければ現在のD-man botは捕捉できません。

これをハッシュタグなしに捉えるために、今回は画像から文字認識を試みます。

文字認識

まず文字認識の方法ですが、Tesseract OCRが使えそうなのでインストールして使ってみます。

$ sudo apt install tesseract-ocr tesseract-ocr-jpn
$ tesseract --list-langs
List of available languages (3):
eng
jpn
osd

試しにローカルにダウンロードした上記の画像を認識してみます。

$ tesseract Cli1sWqVYAE2ZhW.jpg - -l jpn
Warning. Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 253


フォロー

@simd_nyan
#dland enthusiast, D-man evangelist

一
D-man bot                     人2
@d_man_bot
D-man bot is written in D Programming
Languade.

dlang comic strips

\ Q@DlangGuy
Someone had to do it.

揚   John D. Cook
1



《@JohnDCook
Mathematician, consultant, entrepreneur

テ GTNTechnicalStaffin
ロTN                         9
em   @⑥gotechnow
Dallas IT jobs and technical staffin
recruiting. Recruiter. Headhunter

期待通り、 D-man@d_man_bot が認識できました。

おわりに

このまま使えそうなので、あとはタイムラインに流れる画像をダウンロードして文字を認識し、D言語くんに関する文字列を含む画像の元ツイートをRTするよう実装するだけです。
次回botのアップデートをお楽しみに!