[Aiffel]53日目の概念の総括と回顧
4668 ワード
1.概念整理
ノード4
1) F1-score
複数の分類でf 1-scoreを使用する
1) DTM
2) TF-IDF
DTM、TF-IFの共通点、違い
1.共通点
3)熱コード
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
4)疎ベクトルの問題
次元の呪い
ソース
より小さな情報密度
単語ベクトル間の類似度を求めることができません
代替案:テキスト埋め込み
5)文字入力
単語をベクトルに変換し、ベクトルの長さを決定します.
✔✔✔🤔 しゅうちゅうベクトル
출처: 아이펠 노드
그런데 그 벡터의 길이를 일정하게 정해줍니다. 더 많은 단어가 있다고 해서 벡터의 길이가 길어지지 않습니다. 여기서 일반적으로 벡터의 길이가 단어장 크기보다 매우 작기 때문에 각 벡터 값에 정보가 축약되어야 하고 결국 밀집 벡터(dense vector) 가 됩니다.
6) Word2Vec
コアクリエイティブ
分布仮定:周囲の単語からその単語が何であるかがわかる.
=似たような文脈の中で、一緒に現れる傾向のある単語は似たような意味を持つ.
CBoW (Continuous Bag of words)
ソース
sliding window
ソース
非表示レイヤで複数のベクトルの加算と平均値を求めるプロセスがありません
Negative Sampling
✔✔✔🤔
多種類の分類問題を信号関数を用いたバイナリ分類問題に変換する
これについては、1にラベルを貼ってください.関連しない単語をランダムに入力し、0とマークします.
ソース
前の変更
中心語と外郭語を入力します.ペアが正か負かを検証
7) FastText
<pa, art, rti, tia, ial, al>, <partial>
アンチエラー能力
8) ✔✔✔🤔 GloVe
スタンフォード大学が開発したウォードムベディン方法論.
カウントベースの方法論+予測ベースの方法論(損失関数によるモデル学習のため)
ソース
1.特徴
OOV
2.回顧
昨日行ったノードを完了してから行います.初めて学ぶ概念なので、考えても分かるような考え方よりも単語そのものを熟知することを目標にしていますが、週末を利用して復習を続けるべきです.そして最後に出てきたグロVeは理解できないので先にマークしてスキップしましたこれは重要な概念で、再利用すれば、後でも現れます.
Reference
この問題について([Aiffel]53日目の概念の総括と回顧), 我々は、より多くの情報をここで見つけました https://velog.io/@gongsam/aiffel53テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol