製作中新言語「B012（ボルズ）」組込み用辞書作成（前編）

3273 ワード

バッチファイルコマンドプロンプトコマンドプロンプトテキストリンク

拙記ブログ

辞書作成
https://b012.hateblo.jp/entry/2018/10/16/080127

でも少し書いたとおり、言語で使用するためのカタカナ辞書を作成するまでの過程を記す。

元データ

私立ＰＤＤ図書館/百科辞書
http://pddlib.v.wol.ne.jp/japanese/index.htm

フリー公開され、五十音の行別にlzh形式で置いてあるという優れもの。
何故かアスキー関係者にだけ冷遇しているが、過去ひどい目にあったんだろうなぁ。

ただこの辞書データ、例えば

というように非常に細分化されすぎてて、内容はテキストなんだけどtxt拡張子もないため若干使い勝手が悪い。加えて辞書の内容が

-------- あ ----------------------------------------------------
[1]あ
【ア】
◇[英]a-／(母音の前で)an-
○[接頭辞]詞につけて副詞または形容詞を形成する要素。
◎アフット(afoot)：進行中で。
　アショア(ashore)：浜へ・浜に。
　アウェイク(asleep)：眠らずに。
　アスリープ(asleep)：眠って。
★[2]あ
【ア】
◇[英]a-／(母音の前で)an-
○[接頭辞]｢非・無｣を表す語形成要素。
◎アジリア(agyria)：脳回欠損。
　アタクシア(ataxia)：運動失調。
　アグノージア(agnosia)：失認。
　アカルキュリア(acalculia)：失算。

という形式になっており、とりあえず必要なのはカタカナの一覧なので、
必要な部分だけ加工していくことにする。

最初のステップ

まず個々のデータを解凍したのち、数字＋各五十音行のローマ字名でフォルダ作成。
こんなかんじ。

で最初に試したのはコマンドプロンプトからベタ打ちで

で試してみた。

が、さすがにこれを回数分繰り返すのは効率悪いのと、頭のカタカナ一文字で検索するのを想定してバッチファイルを作る。

dic.bat

cd 1ka
type か*.* >ka.txt
type き*.* >ki.txt
type く*.* >ku.txt
type け*.* >ke.txt
type こ*.* >ko.txt

次回は各txtの加工だが、何言語でやるか悩み中。
普段使ってるphpかhsp、いっそexcelマクロかなぁ。

（↑ちょっとだけ予告。その後上述のプログラムを使わず処理しました。）
後編に続く。
https://qiita.com/kairi-sakusaku/items/4d9cd1bd5189c35234e3#_reference-bee9e5fda4574dd241da

Author And Source

この問題について(製作中新言語「B012（ボルズ）」組込み用辞書作成（前編）), 我々は、より多くの情報をここで見つけました https://qiita.com/kairi-sakusaku/items/55918ecb323e57b34758

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .