NLP前処理

2656 ワード

非用語(stopword)

ref: https://bkshin.tistory.com/entry/NLP-3-%EB%B6%88%EC%9A%A9%EC%96%B4Stop-word-%EC%A0%9C%EA%B1%B0
分析にあまり意味のない単語.a,an,theなどの冠詞やI,myなどの代名詞.

spacyは、nlpオブジェクトのtokenにis stop(boolean)を提供する.

nlktは、用語辞書を提供しない.

import nltk
nltk.download('stopwords')
print('영어 불용어 갯수:',len(nltk.corpus.stopwords.words('english')))

ref: https://wikidocs.net/21707
単語には語幹と接尾辞がある.

語幹:単語の意味を含む部分

接尾辞(接尾辞):単語に付加的な意味を持つ部分

語幹を抽出する仕事は引理化である.

Regexを使用して削除

text = re.sub(r"[^a-zA-Z0-9]", "", text)

文字、数字を除いて、すべて空白に変更します.

は通常空白に変わり、できるだけ文の構造を維持します.

spacyのtokenからis punctを呼び出すと、puncaionであることがわかります.

Python building in関数を使用できます.
文字列、

句読点リスト.句読点を使用します.

この問題について(NLP前処理), 我々は、より多くの情報をここで見つけました https://velog.io/@naem1023/불용어stopword

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol