【入門】ファイルを形態素解析して単語の数を数えてみよう!


概要

メモ帳日記を書いていて検索が面倒だったので、簡単な検索コマンドを作ってみた。
こちら
(確定申告とか法人化や社会保険について調べていたはずなのに気付いたらこんな事していたのは内緒)

仕様

    >>> python count_morphologically_analyzed_words.py <dir_name> -d
       ディレクトリ内の全ファイルの出力単語をまとめて出力
    >>> python count_morphologically_analyzed_words.py <file_name>
       対象ファイルの出力単語をまとめて出力

対象文

千葉県浦安市は7日、
東京ディズニーシーで成人式を開催した。
新型コロナウイルス対応の緊急事態宣言下で多くの自治体が式典開催をあきらめるなか、
市は感染対策を徹底することで可能と判断。
ミッキーやミニーの登場は舞台上だけだったが、
ディズニーならではの音楽と一体となった式典で盛り上げた。

結果

式典: 2
ディズニーシー: 1
新型: 1
コロナ: 1
ウイルス: 1
事態: 1
自治体: 1
市: 1
ミニー: 1
舞台: 1
音楽: 1
一体: 1

加えて

これで検索して、「このキーワードが入ってた文なんだったけな」という時に、
下記スクリプトで追加検索する。

search.sh
# bin/bash

<< DOC
入力文字が現れる文を検索

Examples:
  >>> ./search.sh ナッツ
    「ナッツ」が含まれる文の一覧
DOC

find ./ -type f -print | xargs grep $1

所感

単語追加とかで調整してないから精度いまいち。
気が向いたら精度上げよう。

Mecabなどの環境構築はがんばってください。
もしわからない場合はお気軽にメッセージください。



インスタもフォローお願いします🙏
https://instagram.com/tashua314