形態素解析器で使われる日本語品詞体系
879 ワード
日本語テキストを扱う時はよく形態素解析器を利用しています。
特に品詞情報を利用して機能語を排除したりするフィルタリング作業を前処理の段階ですることが多いです。
どのような品詞を使ってどのような品詞は使わないのかを決めるためには形態素解析器に使われている品詞体系を知る必要があります。
一般的に使われているJuman, Chansen, MeCabは下記のような品詞体系を使っています。
形態素解析器 | 品詞体系 |
---|---|
Juman | 益岡・窪田文法を拡張したもの |
Chasen | IPA |
MeCab | IPA |
具体的な内容に関しては下記のサイトによく纏められていますので、ご参考になると思います。
http://www.unixuser.org/~euske/doc/postag/#chasen
Author And Source
この問題について(形態素解析器で使われる日本語品詞体系), 我々は、より多くの情報をここで見つけました https://qiita.com/priancho/items/f633a9e99616b3fe451f著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .