[Aiffel]53日目の概念の総括と回顧


1.概念整理


ノード4

1) F1-score


複数の分類でf 1-scoreを使用する
  • 分類レポート特定値のみ出力
  • dict=Trueを出力し、キーで検索すればよい
  • ノード5

    1) DTM

  • BoW前処理:不要な単語を削除し、異なることを表すが、同じ単語
  • をマージする
  • 疎ベクトル:ほとんどの数値がゼロのベクトル
  • 文書または単語数の増加=疎問題の増加
  • 用語集:重複カウントを除外する単語の集合
  • 2) TF-IDF

  • で使用できない単語を処理する方法
  • ex)
  • は、よく使われるが意味のない語を処理するために使用され、各語には異なる重み付け方法がある.
    DTM、TF-IFの共通点、違い
    1.共通点
  • ドキュメントベクトルサイズ=ワード長
  • 疎ベクトル
  • 差異
  • 重み付け
  • 3)熱コード

    from tensorflow.keras.preprocessing.text import Tokenizer
    from tensorflow.keras.utils import to_categorical

    4)疎ベクトルの問題


  • 次元の呪い
    ソース

    より小さな情報密度

  • 単語ベクトル間の類似度を求めることができません

  • 代替案:テキスト埋め込み
  • 5)文字入力

  • ビン
    単語をベクトルに変換し、ベクトルの長さを決定します.
    ✔✔✔🤔 しゅうちゅうベクトル
    출처: 아이펠 노드
    그런데 그 벡터의 길이를 일정하게 정해줍니다. 더 많은 단어가 있다고 해서 벡터의 길이가 길어지지 않습니다. 여기서 일반적으로 벡터의 길이가 단어장 크기보다 매우 작기 때문에 각 벡터 값에 정보가 축약되어야 하고 결국 밀집 벡터(dense vector) 가 됩니다.
  • ベクトル長が長くない=埋め込み時は低次元
  • 特性
  • 語の関係、修飾文中の語が持つ特徴
  • 6) Word2Vec


  • コアクリエイティブ
    分布仮定:周囲の単語からその単語が何であるかがわかる.
    =似たような文脈の中で、一緒に現れる傾向のある単語は似たような意味を持つ.

  • CBoW (Continuous Bag of words)
    ソース

  • centerword:
  • context word:周辺単語
  • window:center wordの前、後にいくつかの単語を表示する範囲を指定します
  • ex)ウィンドウサイズがmの場合は、2 m単語を参照してください.
    sliding window
  • 構造:入力層、隠蔽層、出力層(人工ニューラルネットワーク)*浅層ニューラルネットワーク
  • 隠匿層は投射層とも呼ばれる.(アクティブ化関数を持たず、重み付けマトリクスのみに積)
  • Skip-gram
    ソース

  • 非表示レイヤで複数のベクトルの加算と平均値を求めるプロセスがありません

  • Negative Sampling
    ✔✔✔🤔
    多種類の分類問題を信号関数を用いたバイナリ分類問題に変換する
    これについては、1にラベルを貼ってください.関連しない単語をランダムに入力し、0とマークします.
    ソース
    前の変更
    中心語と外郭語を入力します.ペアが正か負かを検証
  • 7) FastText

  • ダンボール
  • 文字単位n-gram(文字レベルn-gram、nは単語を区切ることができ、範囲を指定することができる)の表現を学習します.
  • 内部単語学習
  • ex)partial,n=3
    <pa, art, rti, tia, ial, al>, <partial>
  • プロパティ
    アンチエラー能力
  • 8) ✔✔✔🤔 GloVe


    スタンフォード大学が開発したウォードムベディン方法論.
    カウントベースの方法論+予測ベースの方法論(損失関数によるモデル学習のため)

    ソース
    1.特徴
  • に基づくカウントと予測に基づく両方の方法は
  • を用いる.
  • 制限
    OOV
  • 2.回顧


    昨日行ったノードを完了してから行います.初めて学ぶ概念なので、考えても分かるような考え方よりも単語そのものを熟知することを目標にしていますが、週末を利用して復習を続けるべきです.そして最後に出てきたグロVeは理解できないので先にマークしてスキップしましたこれは重要な概念で、再利用すれば、後でも現れます.