[Aiffel]Ipel 51第一概念の整理と回顧
1.概念整理
1) Bag of Words
1.文書内のテキストを単語としてマークする
2.ランダムに混合した単語は順序を無視するが、単語の出現頻度を保存する
3.限界
BoW = {"too":1, "Mary":1, "movies":2, "John":1, "watch":1, "likes":2, "to":1}
BoW1 = {"John":1, "likes":2, "to":1, "watch":1, "movies":2, "Mary":1, "too":1}
順序を無視しているので,上記の2つの事例は同じ場合であると考えられる.語順に従って変化する意味は反映できません.
2) DTM (Document-Term Matrix)
3) TF-IDF (Term Frequency-Inverse Document Frequency)
ソース
logアイテムはIDFに対応
4) LSA (Latent Semantic Analysis)
✔✔✔🤔 とくかちぶんかい
ソース
-文書に関連する意味を表す行列
-単語に関する意味を表す行列
-各意味の重要度を表す行列
VkTV{k}^{T}VkT行列のk列はcopus全体から得られたk個の主要トピック
5) LDA (Latent Dirichlet Allocation)
✔✔✔🤔 LSAとLDA
LSAは、DTMを階層化し、階層化に近い単語をトピックに分類します.LDAは、特定のトピックに単語が存在する確率と、ドキュメント内の特定のトピックが存在する確率とを組み合わせて、トピックを抽出します.
6)形態分析器
必要
2.回顧
テキストベクトル化を学びました.多くの数学的概念が組み込まれているが,行列の基本と理解できる.まだまだ長い道があるけど…どの部分が不足しているのか明確に整理されていないので、見逃しすぎたような気がしますので、整理するものは整理し、どのような方法で埋めますか.
Reference
この問題について([Aiffel]Ipel 51第一概念の整理と回顧), 我々は、より多くの情報をここで見つけました https://velog.io/@gongsam/aiffel51-qdui58n8テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol