読み込んだテキストファイルをmecabで分かち書きし、結果をテキストファイルとして出力する。


やったこと

  1. 文字列を分かち書きをし、結果をテキストファイルで出力する
  2. 読み込んだテキストファイルの文字列を分かち書きし、テキストファイルで出力する

分かち書きをする

owakati_1.py
# mecab 大文字小文字に注意
import MeCab
# datetime
import time
# 引数取得
import sys
from sys import argv

#引数の取得
input_file_name= sys.argv[1]

# 解析対象テキストファイルのインポート
open(input_file_name,'r') as f:
    mecab = MeCab.Tagger("-Owakati")
    text = mecab.parse('解析文字列はこちらです。')
    mecab.parse('')

#ファイル実行開始時刻を取得
timestr = time.strftime('%Y%m%d-%H%M%S')

#出力ファイル名
out_file_name = "ochasen_" + timestr +  ".txt"
with open(out_file_name, 'w') as f:
    f.write(text)

読み込んだテキストファイルの文字列を分かち書きし、テキストファイルで出力する

owakati_2.py
# mecab 大文字小文字に注意
import MeCab
# datetime
import time
# 引数取得
import sys
from sys import argv

# 引数の取得
input_file_name= sys.argv[1]

# 解析対象テキストファイルを開く
f =  open(input_file_name,'r')
# ファイルを読み込む
data = f.read()
# 分かち書きのみ出力する設定にする
mecab = MeCab.Tagger("-Owakati")
text = mecab.parse(data)
mecab.parse('')

#ファイル実行開始時刻を取得
timestr = time.strftime('%Y%m%d-%H%M%S')

#出力ファイル名
out_file_name = "ochasen_" + timestr +  ".txt"
with open(out_file_name, 'w') as f:
    f.write(text)

実行する

$ python owakati_2.py input.txt

最新辞書を使う&品詞も出力する。

owakati_3.py
# mecab 大文字小文字に注意
import MeCab
# datetime
import time
# 引数取得
import sys
from sys import argv

print('実行中…')
# 引数の取得
input_file_name= sys.argv[1]

# 解析対象テキストファイルを開く
f =  open(input_file_name,'r')
# ファイルを読み込む
data = f.read()
# 分かち書きのみ出力する設定にする
mecab = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
text = mecab.parse(data)
mecab.parse('')

#ファイル実行開始時刻を取得
timestr = time.strftime('%Y%m%d-%H%M%S')

#出力ファイル名
out_file_name = "ochasen_" + timestr +  ".txt"
with open(out_file_name, 'w') as f:
    f.write(text)
print('ファイル出力完了 ファイル名:'+ out_file_name)

[Python]MeCabで誰でも簡単に分かち書きをする方法 | エンジニアの眠れない夜
Python: テキストファイルの読み込み - read()、readlines()、readline()メソッド | Yukun's Blog
Macでmecabを使う。 - Qiita