FUNDAMENTAL | 15. 深く勉強する

4875 ワード

20211008


lmsを開始する前にpersilは毎回ノードの理解を助ける事前知識についての内容を整理する.
前に学んだことについての質問もたくさんありますが、この時間は私の今の状態をよく意識させました.
要するに、私は何も知らない.
自分をけなすのではなく客観的な私の状態...
一度にたくさんの知识を受け入れることができなくて、ただ抱いている感じがします.
これからの勉強の仕方をもう少し考える必要があるのかとひそかに考えていましたが、今日を起点にすでに決まっていました.
変える必要がある...!
余計な勉強ではなく、以前学んだことを見る必要があるようです.
新しいものを作り続け、砂の上に城を築くようです😥
とにかく今度の休みの間に考えてみよう
短い振り返りではなく、振り返りが終わる.勉強しろよ...🤪

1.ニューラルネットワークの構成


ニューラルネットワーク(Neural Network):ニューロンが複雑な網状構造を形成することを推進する.
人工ニューラルネットワーク(Artificial Neural Network):各Perceptronを接続する

多層Perceptron;MLP

  • 隠匿層にH個のノードがある.
  • 出力層にK個のノードがある.
  • +1銀bias
  • 	출처: AIFFEL Fundamentals 15. 딥러닝 들여다보기
    입력층(input layer) 은닉층(hidden layer):入力層と出力層の間に存在する層출력층(output layer):最終出力値を持つ層Fully-Connnected Nerual Network:隣接するレイヤノード間の接続のみが存在することを示す(他のレイヤにあるノード間には接続関係が存在しない)
    人工ニューラルネットワークを発現する場合,ノードを基準として層を表すため,3層と考えられる.
    ただし、実際には2つのレイヤがあります.レイヤ数を決定する場合は、ノード間で接続されている部分の数を決定することが望ましいです.

    Parameters/Weights


    各層間に存在する行列.
    WeightとParameterはほぼ同義語ですが、厳密にはParameterにはbiasノードが含まれています.
  • 隣接層間の関係
  • y=W•X+by = W•X+by=W•X+b

    2.アクティブ化関数


    アクティブ化関数は、通常、非線形関数を使用します.
    使用すると、モデルの表現力がよくなります.
    (非線形関数が含まれていない場合は、1つのレイヤからなるモデルとあまり変わりません)

    Sigmoid


    以前は多く使われていたが,消影勾配現象やexp関数を用いたため費用が高いため,現在はあまり使われていない.
    σ(x)=11+e−xσ(x)=\frac{1}{1+e^{-x}}σ(x)=1+e−x1​
    		출처 : https://reniew.github.io/12/

    Tanh


    中心値を0に移動(Sigmoid最適化プロセスが遅くなるという問題を解決)
    しかし消失勾配の問題は依然として存在する
    tanh(x)=ex−e−xex+e−xtanh(x)=\frac{e^x−e^{−x}}{e^x+e^{−x}}tanh(x)=ex+e−xex−e−x​
    		출처 : https://reniew.github.io/12/

    ReLU


    sigmoid,tanh関数に比べて学習速度が速い.
    計算コストは大きくなく、実装が容易です.
    f(x)=max(0,x)f(x)=max(0,x)f(x)=max(0,x)

    3.損失関数


    正解と伝達された信号情報の違いを計算する

    平均二乗誤差(MSE:Mean Square Error)


    MSE=1n∑i=1n(yi−y^i)2MSE=\frac{1}{n}\sum^n_{i=1} (y_i−ŷ_i)^2MSE=n1​i=1∑n​(yi​−y^​i​)2

    クロスエントロピー


    2つの確率分布間の類似度が大きいほど小さい値
    E=−∑i=1ntilog⁡yiE=−\sum^n_{i=1} t_i\log{y_i}E=−i=1∑n​ti​logyi​

    4.傾斜降下法


    傾斜方向は、段階的に傾斜することによって決定される.
    誤差傾斜が大きい方向にパラメータを逆方向に調整する

    学習率

  • 下山時に歩幅と同じキャラクター
  • 傾き値と学習率の積
  • パラメータ値の初期化方法について.
  • 5.誤差逆伝播法


    MLPの汎用アルゴリズムを学ぶ.
    損失値(出力レイヤの結果とターゲット値の違い)を各レイヤに逆伝播し、各ノードの変数を更新します.
    		출처: AIFFEL Fundamentals 15. 딥러닝 들여다보기

    その他のリソース


    What is the role of the bias in neural networks?
    Why must a nonlinear activation function be used in a backpropagation neural network?
    Vanishing Gradient Problem
    深度学習で使用されるアクティブ化関数
    Activation Function
    Wikidocs:非線形アクティブ化関数
    Understanding different Loss Functions for Neural Networks
    ロス関数
    デフォルトのTensorFlow(3)Gradient Descentアルゴリズムはすべての[ML]に使用されます。
    [機械学習]lec 7-1:学習学習率、オーバーフィット、および一般化
    加重初期化
    Classification and Loss Evaluation - Softmax and Cross Entropy Loss