深い学習の基礎

5956 ワード

小火龍が学んだ自然言語で処理するテキストリンク

📌 補習学習とは何ですか。

サンプルに対応する予測値(ターゲット)の正解を提供する方法
例このドキュメントのターゲットはカテゴリラベルです

目的:所与のデータセットから損失関数を最小化するパラメータ値を選択する.👉 傾斜降下法の使用

<操作手順>
1.パラメトリックモデルにサンプルを入れて予測する.
2.予測値と目標は損失関数を通過し、損失に基づいてパラメータを更新する.
パラメータを繰り返し更新するプロセスを反転します.
予測値と目標値を使用して損失関数を計算するプロセス.
パラメータの更新を失うプロセスを逆計算と呼びます.

📌 02.では、傾斜降下法は何でしょうか。

傾斜降下法(GD)

パラメータの初期値を推定し、次いで損失関数の値が臨界点以下に下がるまでパラメータ

の更新を繰り返す.

データセット太大会は時間とお金を費やした

確率傾斜降下法(SGD)

ランダムに訓練データを抽出し、勾配

を計算する.

は運転速度が速いが、ランダム抽出性能がバラツキがあるという問題がある

✔GDとSGDのトレードオフ方式はマイクロ配置確率傾斜降下法(MSGD)である

マイクロ配置確率傾斜降下法(MSGD)

すべてのデータはbatch size個batch学習

に分けられる.

📌 03.一-熱コード

from sklearn.feature_extraction.text import CountVectorizer
import seaborn as sns

corpus = ['Time flies like an arrow.',
          'Fruit flies like a banana.']
one_hot_vectorizer = CountVectorizer(binary=True)
one_hot = one_hot_vectorizer.fit_transform(corpus).toarray()
vocab = one_hot_vectorizer.get_feature_names()
sns.heatmap(one_hot, annot=True,
            cbar=False, xticklabels=vocab,
            yticklabels=['Sentence 1', 'Sentence 2'])

👉 文または単語の該当する要素を1とし、該当しない要素を0として表す(CountVectorierクラスはアルファベットからなる単語を無視するため、a単語はホットマップに表示されない).

📌 04.TFとTF-IDF

TF表示(Term-FRequence:文書頻度)

文書セットでAを主張すると、「核心を主張する」「、」「主張B」「主張」という言葉の頻度は高いが、重要ではなく、「核心」という言葉の頻度は低いが、「主張」よりずっと重要だ.

この場合、文書周波数方式を使用すると周波数によって重み付けされるので、重要でなければ大きな重みが与えられます.したがって,この場合,IDF方式を訳文周波数として用いる.

IDF表現(Inverse-Document-Frenquence:逆ドキュメント頻度)

TF-IDF表示

TF-IDFはTF(w)*IDF(w)

from sklearn.feature_extraction.text import TfidfVectorizer
import seaborn as sns

corpus = ['Time flies like an arrow.',
          'Fruit flies like a banana.']
tfidf_vectorizer = TfidfVectorizer()
tfidf = tfidf_vectorizer.fit_transform(corpus).toarray()
sns.heatmap(tfidf, annot=True, cbar=False, xticklabels=vocab,
            yticklabels = ['Sentence 1', 'Sentence 2'])

🤔 なぜこのような数字が出てくるのでしょうか.

->heatmapのSentence 1でfaileとlikeの値が0.3552の四捨五入値が0.36

Reference

この問題について(深い学習の基礎), 我々は、より多くの情報をここで見つけました https://velog.io/@saiy17/파이토치의-기본

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

[BOJ 16236]小さなサメ(Java)

開発ログ7日目