言語処理100本ノック-33(pandas使用):サ変名詞


言語処理100本ノック 2015「第4章: 形態素解析」33本目「サ変名詞」記録です。
前回同様、抽出条件が変わるだけで非常に簡単です。

参考リンク

リンク 備考
033.サ変名詞.ipynb 回答プログラムのGitHubリンク
素人の言語処理100本ノック:33 多くのソース部分のコピペ元
MeCab公式 最初に見ておくMeCabのページ

環境

種類 バージョン 内容
OS Ubuntu18.04.01 LTS 仮想で動かしています
pyenv 1.2.16 複数Python環境を使うことがあるのでpyenv使っています
Python 3.8.1 pyenv上でpython3.8.1を使っています
パッケージはvenvを使って管理しています
Mecab 0.996-5 apt-getでインストール

上記環境で、以下のPython追加パッケージを使っています。通常のpipでインストールするだけです。

種類 バージョン
pandas 1.0.1

第4章: 形態素解析

学習内容

夏目漱石の小説『吾輩は猫である』に形態素解析器MeCabを適用し,小説中の単語の統計を求めます.

形態素解析, MeCab, 品詞, 出現頻度, Zipfの法則, matplotlib, Gnuplot

ノック内容

夏目漱石の小説『吾輩は猫である』の文章(neko.txt)をMeCabを使って形態素解析し,その結果をneko.txt.mecabというファイルに保存せよ.このファイルを用いて,以下の問に対応するプログラムを実装せよ.

なお,問題37, 38, 39はmatplotlibもしくはGnuplotを用いるとよい.

33. サ変名詞

サ変接続の名詞をすべて抽出せよ.

回答

回答プログラム 033.サ変名詞.ipynb

import pandas as pd

def read_text():
    # 0:表層形(surface)
    # 1:品詞(pos)
    # 2:品詞細分類1(pos1)
    # 7:基本形(base)
    df = pd.read_table('./neko.txt.mecab', sep='\t|,', header=None, 
                       usecols=[0, 1, 2, 7], names=['surface', 'pos', 'pos1', 'base'], 
                       skiprows=4, skipfooter=1 ,engine='python')
    return df[(df['pos'] != '空白') & (df['surface'] != 'EOS') & (df['pos'] != '記号')]

df = read_text()
df[(df['pos'] == '名詞') & (df['pos1'] == 'サ変接続')]

回答解説

前回と変わっているのは以下の1文です。大したことないですね。

df[(df['pos'] == '名詞') & (df['pos1'] == 'サ変接続')]

出力結果(実行結果)

プログラム実行すると以下の結果が出力されます。75の「そうだ」はMeCabの間違えではないでしょうか?