【入門】ファイルを形態素解析して単語の数を数えてみよう！

2220 ワード

ShellScript 形態素解析 mecab Python Python テキストリンク

概要

メモ帳日記を書いていて検索が面倒だったので、簡単な検索コマンドを作ってみた。
こちら
（確定申告とか法人化や社会保険について調べていたはずなのに気付いたらこんな事していたのは内緒）

仕様

    >>> python count_morphologically_analyzed_words.py <dir_name> -d
       ディレクトリ内の全ファイルの出力単語をまとめて出力
    >>> python count_morphologically_analyzed_words.py <file_name>
       対象ファイルの出力単語をまとめて出力

例

対象文

千葉県浦安市は7日、
東京ディズニーシーで成人式を開催した。
新型コロナウイルス対応の緊急事態宣言下で多くの自治体が式典開催をあきらめるなか、
市は感染対策を徹底することで可能と判断。
ミッキーやミニーの登場は舞台上だけだったが、
ディズニーならではの音楽と一体となった式典で盛り上げた。

結果

式典: 2
ディズニーシー: 1
新型: 1
コロナ: 1
ウイルス: 1
事態: 1
自治体: 1
市: 1
ミニー: 1
舞台: 1
音楽: 1
一体: 1

加えて

これで検索して、「このキーワードが入ってた文なんだったけな」という時に、
下記スクリプトで追加検索する。

search.sh

# bin/bash

<< DOC
入力文字が現れる文を検索

Examples:
  >>> ./search.sh ナッツ
    「ナッツ」が含まれる文の一覧
DOC

find ./ -type f -print | xargs grep $1

所感

単語追加とかで調整してないから精度いまいち。
気が向いたら精度上げよう。

Mecabなどの環境構築はがんばってください。
もしわからない場合はお気軽にメッセージください。

インスタもフォローお願いします🙏
https://instagram.com/tashua314

Author And Source

この問題について(【入門】ファイルを形態素解析して単語の数を数えてみよう！), 我々は、より多くの情報をここで見つけました https://qiita.com/tashua314/items/fd0fd2645dc9d886a429

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

JAvaワイルドカードでファイルを検索

ARM裸板開発——簡単な作成で「shell」機能を実現