FUNDAMENTAL | 23. アクティブ化関数について

4825 ワード

テキストリンク

20211103

💡Key Point💡
1.関数のアクティブ化
2.線形と非線形
3.アクティブ化関数タイプ

1.アクティブ化関数（アクティブ化関数）

特定の条件(ex.しきい値)が満たされているかどうかに応じて、有効または無効を決定します.
深さ学習モデルを強化するための表現能力(表現能力または表現能力)

線形関数は非線形関数を表すことはできません.

モデル内のパラメータは入力値と線形関係にあります.

モデルは非線形データを表すために非線形でなければなりません

非線形のアクティブ化関数

線形活性化関数と非線形活性化関数に分けられます.

2.Perceptron

	출처: AIFFFEL FUNDAMENTALS_SSAC2 23. 활성화 함수의 이해

3.線形変換（線形変換）

VVV空間上のベクトルをWWW空間上のベクトルに変換する役割.

VVV、WWW仮定

すべてのベクトル空間(座標平面、ベクトルを描くことができる空間)

両方が実数セットにあると仮定

VVV:ドメイン(ドメイン)ロールの定義

WWWW:空域(codomain)ロール

線形変換の条件(TTT:VVV→WWW)

付加性(Additivity):x,y∈Vx,yin Vx,y∈Vについて
T(x+y)=T(x)+T(y)\mathcal{T}(x+y) =T(x)+T(y)T(x+y)=T(x)+T(y)

同質性:x∈V,c∈Rxin V,cinBB{R}x∈V,c∈Rについて
T(cx)=cT(x)\mathcal{T}(cx) = c\mathcal{T}(x)T(cx)=cT(x)

4.非線形関数

深さ学習モデルの表現力を強化する

の線形関数しか使わないとしたら?y=f(w3f(w2f(w1x)))y=f(w_3f(w_2f(w_1x)))y=f(w3f(w2f(w1x)))=f(w3f(f(w1w2x)))=f(w_3f(f(w_1w_2x)))=f(w3f(f(w1w2x)))=f(f(f(w1w2w3x)))=f(f(f(w_1w_2w_3x)))=f(f(f(w1w2w3x)))=f(f(f(Wx)))=f(f(f(Wx)))=f(f(f(Wx)))

W=w1w2w3W=w_1w_2w_3W=w1w2w3

	AIFFEL FUNDAMENTALS_SSAC2 23. 활성화 함수의 이해

、すなわち、3つのノードを1つのノードに縮小して表す.

5.アクティブ化関数

アクティブ化関数のタイプ

バイナリステップ関数

リニアアクティブ関数

ひせんけいかっせいかんすう

バイナリステップ関数

入力が臨界点を超えている場合は1(True)を出力し、そうでない場合は0を出力する

バイナリステップ関数の限界

単層知覚論ではこのXOR gateは実現できない→多層知覚論(MLP)で解決

逆伝播アルゴリズムを使用できません

複数の出力はサポートされていません

せんけいかっせいかんすう

複数の出力をサポート

多分類問題の解決

微分→逆伝搬アルゴリズムを用いることができる

非線形フィーチャーを持つデータを予測できません

6.非線形活性化関数（非線形活性化関数）

逆伝播アルゴリズムを使用可能

複数の出力をサポート

予測可能な非線形データ

シグナル

σ(x)=11+e−xσ(x)=\frac{1}{1+e^{−x}}σ(x)=1+e−x1

値ドメイン:(0,1)(0,1)(0,1)→0<σ(x)<10<σ(x)<10<σ(x)<1

シグナル関数の欠点

kill the gradient

信号関数0または1で飽和(飽和)

0は中心ではありません

の上流勾配の符号による、このノードの重み付け値はいずれも順方向に更新されているか、あるいはいずれも負方向に更新→訓練に時間がかかる

である.

출처: AIFFEL FUNDAMENTALS_SSAC2 23. 활성화 함수의 이해

スーパーバンプ接線(tanh,Hyperbolic接線)

tanh(x)=ex−e−xex+e−xtanh(x)=\frac{e^x−e^{−x}}{e^x+e^{−x}}tanh(x)=ex+e−xex−e−x

そうきょくせんかんすう

0を中心に

通常は信号関数を用いたモデルよりも速く訓練される.

欠点:-1または1の飽和

ReLU(rectified linear unit)

f(x)=max(0,x)f(x)=max(0,x)f(x)=max(0,x)

最近最も多く使用されたアクティブ化関数

正接モデルを使用するよりも、トレーニング速度が数倍速い

指数などの高価な演算を使用しないため、処理速度が速くなります.

ReLUは0以外の任意の領域で微分可能

短所

出力値0が中心ではありません

Dying ReLU

モデルでRELUを使用するノードを無効にし、0のノード

のみを出力する.

ノードの出力値とランプ値は0であり、これはノードがフリーズする一般的な問題(特に学習率を大幅に向上させる場合)

である.

ReLUの欠点を克服する試み。

Leaky ReLU

f(x)=max(0.01x,x)f(x)=max(0.01x,x)f(x)=max(0.01x,x)

Dying ReLUの解決を試みる

出力0の部分出力を小さい負の値にすることで問題を解決する

PReLU(parametric ReLU)

f(x)=max(αx,x)f(x)=max(αx,x)f(x)=max(αx,x)

Leaky ReLUと同様

0以下の場合の[スキュー](Skew)を訓練するための新しいパラメータを追加

ELU (exponential linear unit)

0が中心点でないという欠点と「Dying ReLU」の問題を解決

欠点:指数演算は計算コストを増加させる

参考資料

History of the Perceptron
Linear transformations and matrices | Chapter 3, Essence of linear algebra
Perceptron
そうきょくせんかんすう
ReLU Deep Neural Networks and Linear Finite Elements
Wikipedia-アクティブ化機能

Reference

この問題について(FUNDAMENTAL | 23. アクティブ化関数について), 我々は、より多くの情報をここで見つけました https://velog.io/@tjddus0302/FUNDAMENTAL-23.-활성화-함수의-이해

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

Causal ML パッケージと学ぶ Meta-Learner

[Baekjoon] - 2606. ウイルス(S 3)