■【Google Colaboratory】 Preprocessing of Natural Language Processing & 形態素解析(janome)
1. Read Data by "with open" method
青空文庫の 芥川龍之介の"鼻" を読み込んでみる
ファイルの文字コードは、shift_jis
# Pythonでのtext fileの読み書き(入出力)
with open('/hana.txt', mode='r', encoding='shift_jis') as f:
nose_hana = f.read()
print(nose_hana)
2. Preprocessing of "HANA"
#データの前処理
import re
import pickle
nose = re.sub('《[^》]+》', '', nose_hana) # ルビを削除する
nose = re.sub('[|― 「」\n]', '', nose) # |― と全角スペース、「」と改行の削除
nose = re.sub('[ ]', '', nose) #半角スペース削除
nose = re.sub('[\u3000]', '', nose) #\u3000削除
sentense_end = '。'
nose_list = nose.split(sentense_end)
nose_list.pop()
nose_list = [x+sentense_end for x in nose_list]
print(nose_list)
#データの前処理
import re
import pickle
nose = re.sub('《[^》]+》', '', nose_hana) # ルビを削除する
nose = re.sub('[|― 「」\n]', '', nose) # |― と全角スペース、「」と改行の削除
nose = re.sub('[ ]', '', nose) #半角スペース削除
nose = re.sub('[\u3000]', '', nose) #\u3000削除
sentense_end = '。'
nose_list = nose.split(sentense_end)
nose_list.pop()
nose_list = [x+sentense_end for x in nose_list]
print(nose_list)
3. WAKATI "分かち書き"
from janome import tokenizer
s = Tokenizer()
t = nose_list
for _ in nose_list:
print(s.tokenize(_, wakati=True))
from janome import tokenizer
s = Tokenizer()
t = nose_list
for _ in nose_list:
print(s.tokenize(_, wakati=True))
4. Analysis of results of "WAKATI"
# collectionsで、出現頻度をカウントすることができる
import collections
s = Tokenizer() # インスタンス化
words = []
for _ in nose_list:
words += s.tokenize(_, wakati=True)
c = collections.Counter(words)
print(c)
Reference
# collectionsで、出現頻度をカウントすることができる
import collections
s = Tokenizer() # インスタンス化
words = []
for _ in nose_list:
words += s.tokenize(_, wakati=True)
c = collections.Counter(words)
print(c)
Author And Source
この問題について(■【Google Colaboratory】 Preprocessing of Natural Language Processing & 形態素解析(janome)), 我々は、より多くの情報をここで見つけました https://qiita.com/O-Mik/items/99f7f35987e1f5ad70d8著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .