ネットワークスペシャリスト 午後解答に出てくる単語を抽出してみた
きっかけ
pythonを勉強をしていて形態素解析なるものを知り
勉強のサンプルとしてネットワークスペシャリストの午後1,2の解答に出てくる単語のカウントしてみました。
手順
①IPAサイトからネットワークスペシャリストの午後の解答PDFをダウンロード
※平成24年度~29年度まで
②PDFファイルからテキスト抽出
参考
PDFMinerでPDFから日本語テキストを抽出する
https://qiita.com/korkewriya/items/72de38fc506ab37b4f2d
そのままだとPDFにセキュリティがかかっているため
下記コマンドにて解除
qpdf --decrypt --password='' encrypted.pdf decrypted.pdf
③上記で抽出したテキストを一つのテキストファイルに纏めて、
さらに手動で【出題趣旨】や図の解答、IPアドレスなど不要なものを削除
参考URL
形態素解析をして日本語の文章を単語区切りにする方法
https://ai-kenkyujo.com/2017/10/02/word/
※今回は単語数500にして抽出して、どう考えても不必要な単語()は削除しました。
結果
意味不明な数字のものや「同」「一」、「プロ」「キシ」のように
単語が分かれてしまっているものもありますが、とりあえずそこはスルーで。
私は試験で漢字が書けるか不安もあるのでその参考にでもなれば。。。
Author And Source
この問題について(ネットワークスペシャリスト 午後解答に出てくる単語を抽出してみた), 我々は、より多くの情報をここで見つけました https://qiita.com/kuro_7/items/948d02baae2fb33d4ad6著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .