ネットワークスペシャリスト 午後解答に出てくる単語を抽出してみた


きっかけ

pythonを勉強をしていて形態素解析なるものを知り
勉強のサンプルとしてネットワークスペシャリストの午後1,2の解答に出てくる単語のカウントしてみました。

手順

①IPAサイトからネットワークスペシャリストの午後の解答PDFをダウンロード
※平成24年度~29年度まで

②PDFファイルからテキスト抽出
参考

 PDFMinerでPDFから日本語テキストを抽出する
  https://qiita.com/korkewriya/items/72de38fc506ab37b4f2d

 そのままだとPDFにセキュリティがかかっているため
 下記コマンドにて解除

qpdf --decrypt --password='' encrypted.pdf decrypted.pdf

③上記で抽出したテキストを一つのテキストファイルに纏めて、
さらに手動で【出題趣旨】や図の解答、IPアドレスなど不要なものを削除

参考URL

形態素解析をして日本語の文章を単語区切りにする方法
https://ai-kenkyujo.com/2017/10/02/word/
 ※今回は単語数500にして抽出して、どう考えても不必要な単語()は削除しました。

結果

意味不明な数字のものや「同」「一」、「プロ」「キシ」のように
単語が分かれてしまっているものもありますが、とりあえずそこはスルーで。
私は試験で漢字が書けるか不安もあるのでその参考にでもなれば。。。