[Aiffel]Ipel 51第一概念の整理と回顧


1.概念整理


1) Bag of Words



1.文書内のテキストを単語としてマークする
2.ランダムに混合した単語は順序を無視するが、単語の出現頻度を保存する
3.限界
BoW = {"too":1, "Mary":1, "movies":2, "John":1, "watch":1, "likes":2, "to":1}
BoW1 = {"John":1, "likes":2, "to":1, "watch":1, "movies":2, "Mary":1, "too":1}
順序を無視しているので,上記の2つの事例は同じ場合であると考えられる.
語順に従って変化する意味は反映できません.

2) DTM (Document-Term Matrix)

  • Bag of Wordsは、1つのマトリクス=複数のドキュメントを使用して、各ドキュメントに表示される単語の頻度を1つのマトリクスにマージすることを実現します.
  • 行=文書/列=単語(逆にTDM)です.
  • 境界
  • ストレージスペースの浪費(+階層の呪い):使用するドキュメント、単語の数が多いほど、行と列の大部分の値は0になります.
  • 単語の頻度そのものに集中する問題:2つのドキュメントを比較すると、訴訟の数が同じで、類似のドキュメントと見なすのは難しい.すなわち,重要でない単語の頻度が似ている場合でも,2つの文書が似ていると判断できる.
  • 3) TF-IDF (Term Frequency-Inverse Document Frequency)



    ソース
    logアイテムはIDFに対応
  • 単語の頻度-訳文の頻度(文書の頻度の逆数)
  • は「いいえ」のように重要だが頻度の高い語がノイズになる現象を緩和した.
  • DTMを作成した後、TF-IF重み付けをこの
  • に適用する.
  • 境界
  • 性能は
  • DTM
  • より低い

    4) LSA (Latent Semantic Analysis)

  • 特定の単語に関連付けられた文書セットを検索したい場合、
  • 単語の意味、テーマを知りたい場合は
  • 潜在的意味分析:Nlp情報検索技術
  • 、copurs全体でドキュメント内の単語間の関係を検索するために使用される
  • は、単語、ドキュメントおよびドキュメント、単語およびドキュメント間の意味類似性スコア
  • を計算することができる.
  • 需要概念:
    ✔✔✔🤔 とくかちぶんかい

  • ソース
  • LSAは、DTMまたはTF−IDFマトリクスに対して無制限SVDを実行する
  • 分解により3つの行列が得られた.
    -文書に関連する意味を表す行列
    -単語に関する意味を表す行列
    -各意味の重要度を表す行列
    VkTV{k}^{T}VkT行列のk列はcopus全体から得られたk個の主要トピック
  • と見なすことができる.

    5) LDA (Latent Dirichlet Allocation)

  • 潜在的なエンクロージャ割当
  • ドキュメントには、確率分布に基づいて単語を生成すると仮定する複数のトピックが含まれています.
  • 2のプロセスを遡る.
  • 特定のトピックにおける特定の単語が出現する確率は
  • と推定される.
    ✔✔✔🤔 LSAとLDA
    LSAは、DTMを階層化し、階層化に近い単語をトピックに分類します.LDAは、特定のトピックに単語が存在する確率と、ドキュメント内の特定のトピックが存在する確率とを組み合わせて、トピックを抽出します.

    6)形態分析器


    必要
  • 韓国語などの膠着語をtoken
  • と表記するため
  • 境界
  • に登録する単語によって形態素が分類されるため、生詞
  • を識別することは難しい.
  • soynlp
  • 製品ラベル、形態素分析などがサポートする韓国語形態素分析器
  • 非指導学習形態素分析器
  • 凝集確率
  • 文字列を文字単位で分離して内部文字列を作成する過程で、左から右に順番に文字を追加し、各文字列に次の文字が現れる確率を計算し、その累積に1つの値を乗算します.
  • の値が高いほど、文字列シーケンスがcooper全体で単語として現れる可能性が高い
  • .

    2.回顧


    テキストベクトル化を学びました.多くの数学的概念が組み込まれているが,行列の基本と理解できる.まだまだ長い道があるけど…どの部分が不足しているのか明確に整理されていないので、見逃しすぎたような気がしますので、整理するものは整理し、どのような方法で埋めますか.