[Aiffel]53日目の概念の総括と回顧

4668 ワード

いちねつコーディングテキストリンク

1.概念整理

ノード4

1) F1-score

複数の分類でf 1-scoreを使用する

分類レポート特定値のみ出力

dict=Trueを出力し、キーで検索すればよい

ノード5

1) DTM

BoW前処理:不要な単語を削除し、異なることを表すが、同じ単語

をマージする

疎ベクトル:ほとんどの数値がゼロのベクトル

文書または単語数の増加=疎問題の増加

用語集:重複カウントを除外する単語の集合

2) TF-IDF

で使用できない単語を処理する方法

ex)

は、よく使われるが意味のない語を処理するために使用され、各語には異なる重み付け方法がある.
DTM、TF-IFの共通点、違い
1.共通点

ドキュメントベクトルサイズ=ワード長

疎ベクトル

差異

重み付け

3）熱コード

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

4)疎ベクトルの問題

次元の呪い
ソース

より小さな情報密度

単語ベクトル間の類似度を求めることができません

代替案:テキスト埋め込み

5）文字入力

ビン
単語をベクトルに変換し、ベクトルの長さを決定します.
✔✔✔🤔 しゅうちゅうベクトル

출처: 아이펠 노드
그런데 그 벡터의 길이를 일정하게 정해줍니다. 더 많은 단어가 있다고 해서 벡터의 길이가 길어지지 않습니다. 여기서 일반적으로 벡터의 길이가 단어장 크기보다 매우 작기 때문에 각 벡터 값에 정보가 축약되어야 하고 결국 밀집 벡터(dense vector) 가 됩니다.

ベクトル長が長くない=埋め込み時は低次元

特性

語の関係、修飾文中の語が持つ特徴

6) Word2Vec

コアクリエイティブ
分布仮定:周囲の単語からその単語が何であるかがわかる.
=似たような文脈の中で、一緒に現れる傾向のある単語は似たような意味を持つ.

CBoW (Continuous Bag of words)
ソース

centerword:

context word:周辺単語

window:center wordの前、後にいくつかの単語を表示する範囲を指定します

ex)ウィンドウサイズがmの場合は、2 m単語を参照してください.
sliding window

構造:入力層、隠蔽層、出力層(人工ニューラルネットワーク)*浅層ニューラルネットワーク

隠匿層は投射層とも呼ばれる.(アクティブ化関数を持たず、重み付けマトリクスのみに積)

Skip-gram
ソース

非表示レイヤで複数のベクトルの加算と平均値を求めるプロセスがありません

Negative Sampling
✔✔✔🤔
多種類の分類問題を信号関数を用いたバイナリ分類問題に変換する
これについては、1にラベルを貼ってください.関連しない単語をランダムに入力し、0とマークします.
ソース
前の変更

中心語と外郭語を入力します.ペアが正か負かを検証

7) FastText

ダンボール

文字単位n-gram(文字レベルn-gram、nは単語を区切ることができ、範囲を指定することができる)の表現を学習します.

内部単語学習

ex)partial,n=3

<pa, art, rti, tia, ial, al>, <partial>

プロパティ
アンチエラー能力

8) ✔✔✔🤔 GloVe

スタンフォード大学が開発したウォードムベディン方法論.
カウントベースの方法論+予測ベースの方法論(損失関数によるモデル学習のため)

ソース
1.特徴

に基づくカウントと予測に基づく両方の方法は

を用いる.

制限
OOV

2.回顧

昨日行ったノードを完了してから行います.初めて学ぶ概念なので、考えても分かるような考え方よりも単語そのものを熟知することを目標にしていますが、週末を利用して復習を続けるべきです.そして最後に出てきたグロVeは理解できないので先にマークしてスキップしましたこれは重要な概念で、再利用すれば、後でも現れます.

Reference

この問題について([Aiffel]53日目の概念の総括と回顧), 我々は、より多くの情報をここで見つけました https://velog.io/@gongsam/aiffel53

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

JAvaアルゴリズムの高速ソート

モダンJavaScript-Deep Dive 17,18[コンストラクション関数によるオブジェクト、関数、および一級オブジェクトの作成]