製作中新言語「B012(ボルズ)」組込み用辞書作成(前編)


拙記ブログ

辞書作成
https://b012.hateblo.jp/entry/2018/10/16/080127

でも少し書いたとおり、言語で使用するためのカタカナ辞書を作成するまでの過程を記す。

元データ

私立PDD図書館/百科辞書
http://pddlib.v.wol.ne.jp/japanese/index.htm

フリー公開され、五十音の行別にlzh形式で置いてあるという優れもの。
何故かアスキー関係者にだけ冷遇しているが、過去ひどい目にあったんだろうなぁ。

ただこの辞書データ、例えば

というように非常に細分化されすぎてて、内容はテキストなんだけどtxt拡張子もないため若干使い勝手が悪い。加えて辞書の内容が

-------- あ ----------------------------------------------------
[1]あ
【ア】
◇[英]a-/(母音の前で)an-
○[接頭辞]詞につけて副詞または形容詞を形成する要素。
◎アフット(afoot):進行中で。
 アショア(ashore):浜へ・浜に。
 アウェイク(asleep):眠らずに。
 アスリープ(asleep):眠って。
★[2]あ
【ア】
◇[英]a-/(母音の前で)an-
○[接頭辞]「非・無」を表す語形成要素。
◎アジリア(agyria):脳回欠損。
 アタクシア(ataxia):運動失調。
 アグノージア(agnosia):失認。
 アカルキュリア(acalculia):失算。

という形式になっており、とりあえず必要なのはカタカナの一覧なので、
必要な部分だけ加工していくことにする。

最初のステップ

まず個々のデータを解凍したのち、数字+各五十音行のローマ字名でフォルダ作成。
こんなかんじ。

で最初に試したのはコマンドプロンプトからベタ打ちで

で試してみた。

が、さすがにこれを回数分繰り返すのは効率悪いのと、頭のカタカナ一文字で検索するのを想定してバッチファイルを作る。

dic.bat
cd 1ka
type*.* >ka.txt
type*.* >ki.txt
type*.* >ku.txt
type*.* >ke.txt
type*.* >ko.txt

次回は各txtの加工だが、何言語でやるか悩み中。
普段使ってるphpかhsp、いっそexcelマクロかなぁ。

(↑ちょっとだけ予告。その後上述のプログラムを使わず処理しました。)
後編に続く。
https://qiita.com/kairi-sakusaku/items/4d9cd1bd5189c35234e3#_reference-bee9e5fda4574dd241da