深い学習の基礎


📌 補習学習とは何ですか。


  • サンプルに対応する予測値(ターゲット)の正解を提供する方法
    例このドキュメントのターゲットはカテゴリラベルです

  • 目的:所与のデータセットから損失関数を最小化するパラメータ値を選択する.👉 傾斜降下法の使用

  • <操作手順>
    1.パラメトリックモデルにサンプルを入れて予測する.
    2.予測値と目標は損失関数を通過し、損失に基づいてパラメータを更新する.
    パラメータを繰り返し更新するプロセスを反転します.
    予測値と目標値を使用して損失関数を計算するプロセス.
    パラメータの更新を失うプロセスを逆計算と呼びます.

    📌 02.では、傾斜降下法は何でしょうか。

  • 傾斜降下法(GD)
  • パラメータの初期値を推定し、次いで損失関数の値が臨界点以下に下がるまでパラメータ
  • の更新を繰り返す.
  • データセット太大会は時間とお金を費やした
  • 確率傾斜降下法(SGD)
  • ランダムに訓練データを抽出し、勾配
  • を計算する.
  • は運転速度が速いが、ランダム抽出性能がバラツキがあるという問題がある
  • ✔GDとSGDのトレードオフ方式はマイクロ配置確率傾斜降下法(MSGD)である
  • マイクロ配置確率傾斜降下法(MSGD)
  • すべてのデータはbatch size個batch学習
  • に分けられる.
  • 最近使用する方法
  • 📌 03.一-熱コード

    from sklearn.feature_extraction.text import CountVectorizer
    import seaborn as sns
    
    corpus = ['Time flies like an arrow.',
              'Fruit flies like a banana.']
    one_hot_vectorizer = CountVectorizer(binary=True)
    one_hot = one_hot_vectorizer.fit_transform(corpus).toarray()
    vocab = one_hot_vectorizer.get_feature_names()
    sns.heatmap(one_hot, annot=True,
                cbar=False, xticklabels=vocab,
                yticklabels=['Sentence 1', 'Sentence 2'])

    👉 文または単語の該当する要素を1とし、該当しない要素を0として表す(CountVectorierクラスはアルファベットからなる単語を無視するため、a単語はホットマップに表示されない).

    📌 04.TFとTF-IDF

  • TF表示(Term-FRequence:文書頻度)
  • 文書セットでAを主張すると、「核心を主張する」「、」「主張B」「主張」という言葉の頻度は高いが、重要ではなく、「核心」という言葉の頻度は低いが、「主張」よりずっと重要だ.
  • この場合、文書周波数方式を使用すると周波数によって重み付けされるので、重要でなければ大きな重みが与えられます.したがって,この場合,IDF方式を訳文周波数として用いる.

  • IDF表現(Inverse-Document-Frenquence:逆ドキュメント頻度)


  • TF-IDF表示
  • TF-IDFはTF(w)*IDF(w)
  • from sklearn.feature_extraction.text import TfidfVectorizer
    import seaborn as sns
    
    corpus = ['Time flies like an arrow.',
              'Fruit flies like a banana.']
    tfidf_vectorizer = TfidfVectorizer()
    tfidf = tfidf_vectorizer.fit_transform(corpus).toarray()
    sns.heatmap(tfidf, annot=True, cbar=False, xticklabels=vocab,
                yticklabels = ['Sentence 1', 'Sentence 2'])

    🤔 なぜこのような数字が出てくるのでしょうか.

    ->heatmapのSentence 1でfaileとlikeの値が0.3552の四捨五入値が0.36