FUNDAMENTAL | 23. アクティブ化関数について

4825 ワード

20211103


💡Key Point💡
1.関数のアクティブ化
2.線形と非線形
3.アクティブ化関数タイプ

1.アクティブ化関数(アクティブ化関数)


特定の条件(ex.しきい値)が満たされているかどうかに応じて、有効または無効を決定します.
深さ学習モデルを強化するための表現能力(表現能力または表現能力)

  • 線形関数は非線形関数を表すことはできません.

  • モデル内のパラメータは入力値と線形関係にあります.

  • モデルは非線形データを表すために非線形でなければなりません

  • 非線形のアクティブ化関数

  • 線形活性化関数と非線形活性化関数に分けられます.
  • 2.Perceptron


    	출처: AIFFFEL FUNDAMENTALS_SSAC2 23. 활성화 함수의 이해

    3.線形変換(線形変換)


    VVV空間上のベクトルをWWW空間上のベクトルに変換する役割.

  • VVV、WWW仮定

  • すべてのベクトル空間(座標平面、ベクトルを描くことができる空間)

  • 両方が実数セットにあると仮定

  • VVV:ドメイン(ドメイン)ロールの定義

  • WWWW:空域(codomain)ロール

  • 線形変換の条件(TTT:VVV→WWW)

  • 付加性(Additivity):x,y∈Vx,yin Vx,y∈Vについて
    T(x+y)=T(x)+T(y)\mathcal{T}(x+y) =T(x)+T(y)T(x+y)=T(x)+T(y)

  • 同質性:x∈V,c∈Rxin V,cinBB{R}x∈V,c∈Rについて
    T(cx)=cT(x)\mathcal{T}(cx) = c\mathcal{T}(x)T(cx)=cT(x)
  • 4.非線形関数


    深さ学習モデルの表現力を強化する
  • の線形関数しか使わないとしたら?y=f(w3f(w2f(w1x)))y=f(w_3f(w_2f(w_1x)))y=f(w3​f(w2​f(w1​x)))=f(w3f(f(w1w2x)))=f(w_3f(f(w_1w_2x)))=f(w3​f(f(w1​w2​x)))=f(f(f(w1w2w3x)))=f(f(f(w_1w_2w_3x)))=f(f(f(w1​w2​w3​x)))=f(f(f(Wx)))=f(f(f(Wx)))=f(f(f(Wx)))
  • W=w1w2w3W=w_1w_2w_3W=w1​w2​w3​
  • 	AIFFEL FUNDAMENTALS_SSAC2 23. 활성화 함수의 이해
  • 、すなわち、3つのノードを1つのノードに縮小して表す.
  • 5.アクティブ化関数


  • アクティブ化関数のタイプ

  • バイナリステップ関数

  • リニアアクティブ関数

  • ひせんけいかっせいかんすう
  • バイナリステップ関数


    入力が臨界点を超えている場合は1(True)を出力し、そうでない場合は0を出力する

    バイナリステップ関数の限界


  • 単層知覚論ではこのXOR gateは実現できない→多層知覚論(MLP)で解決

  • 逆伝播アルゴリズムを使用できません

  • 複数の出力はサポートされていません
  • せんけいかっせいかんすう


  • 複数の出力をサポート

  • 多分類問題の解決

  • 微分→逆伝搬アルゴリズムを用いることができる

  • 非線形フィーチャーを持つデータを予測できません
  • 6.非線形活性化関数(非線形活性化関数)


  • 逆伝播アルゴリズムを使用可能

  • 複数の出力をサポート

  • 予測可能な非線形データ
  • シグナル


    σ(x)=11+e−xσ(x)=\frac{1}{1+e^{−x}}σ(x)=1+e−x1​
  • 値ドメイン:(0,1)(0,1)(0,1)→0<σ(x)<10<σ(x)<10<σ(x)<1
  • シグナル関数の欠点

  • kill the gradient
  • 信号関数0または1で飽和(飽和)
  • 0は中心ではありません
  • の上流勾配の符号による、このノードの重み付け値はいずれも順方向に更新されているか、あるいはいずれも負方向に更新→訓練に時間がかかる
  • である.
    출처: AIFFEL FUNDAMENTALS_SSAC2 23. 활성화 함수의 이해

    スーパーバンプ接線(tanh,Hyperbolic接線)


    tanh(x)=ex−e−xex+e−xtanh(x)=\frac{e^x−e^{−x}}{e^x+e^{−x}}tanh(x)=ex+e−xex−e−x​

  • そうきょくせんかんすう

  • 0を中心に

  • 通常は信号関数を用いたモデルよりも速く訓練される.

  • 欠点:-1または1の飽和
  • ReLU(rectified linear unit)


    f(x)=max(0,x)f(x)=max(0,x)f(x)=max(0,x)

  • 最近最も多く使用されたアクティブ化関数

  • 正接モデルを使用するよりも、トレーニング速度が数倍速い

  • 指数などの高価な演算を使用しないため、処理速度が速くなります.

  • ReLUは0以外の任意の領域で微分可能

  • 短所

  • 出力値0が中心ではありません

  • Dying ReLU
  • モデルでRELUを使用するノードを無効にし、0のノード
  • のみを出力する.
  • ノードの出力値とランプ値は0であり、これはノードがフリーズする一般的な問題(特に学習率を大幅に向上させる場合)
  • である.

    ReLUの欠点を克服する試み。


    Leaky ReLU


    f(x)=max(0.01x,x)f(x)=max(0.01x,x)f(x)=max(0.01x,x)

  • Dying ReLUの解決を試みる

  • 出力0の部分出力を小さい負の値にすることで問題を解決する
  • PReLU(parametric ReLU)


    f(x)=max(αx,x)f(x)=max(αx,x)f(x)=max(αx,x)

  • Leaky ReLUと同様

  • 0以下の場合の[スキュー](Skew)を訓練するための新しいパラメータを追加
  • ELU (exponential linear unit)


  • 0が中心点でないという欠点と「Dying ReLU」の問題を解決

  • 欠点:指数演算は計算コストを増加させる
  • 参考資料


    History of the Perceptron
    Linear transformations and matrices | Chapter 3, Essence of linear algebra
    Perceptron
    そうきょくせんかんすう
    ReLU Deep Neural Networks and Linear Finite Elements
    Wikipedia-アクティブ化機能