[Day 10]
2021年春季合宿日10日
[Day 10]可視化/統計学
Data Visualization - Graph tools
matplotlib
Figure & Axes
fig = plt.figure() # figure 반환
fig.set_size_inches(10,5) # 크기 지정
ax_1 = fig.add_subplot(1,2,1) # 두개의 plot 생성
ax_2 = fig.add_subplot(1,2,2) # 두개의 plot 생성
ax_1.plot(X_1, Y_1, c="b")
ax_2.plot(X_2, Y_2, c="g")
plot.show() # show & flush
subplots
set color
set linestyle
ls
またはlinestyle
使用plt.plot(X_1, Y_1, c="b", linestyle="dashed")
plt.plot(X_1, Y_1, c="r", ls="dotted")
plt.show()
set title
plt.title("Two lines")
plt.title('$y = \\frac{ax+b){test}$')
set legend
plt.legend(shadow=True, fancybox=True, loc="lower right")
set grid & xylim
plt.grid(True, lw=0.4, ls="--", c=".90")
plt.xlim(-100, 200)
plt.ylim(-200,200)
matplotlib graph
scatter
scatter
使用関数marker:scatter
指定形状plt.scatter(data_1, data_2, c="b", marker="x")
s
:データのサイズを指定し、データのサイズを比較可能colors = np.random.rand(N)
plt.scatter(x, y, s=area, c=colors, alpha=0.5)
bar chart
bar
使用関数plt.bar(x, y, color="b", width=0.25)
histogram
plt.hist(x, bins=100)
boxplot
plt.boxplot(data)
Seaborn : statistical data visualization
seaborn
basic plots
sns.lineplot(x="total_bill", y="tip", data=tips)
sns.scatterplot(x="total_bill", y="tip", data=tips)
sns.countplot(x="smoker", data=tips)
sns.barplot(x="day", y="tip", data=tips)
sns.displot(tips["total_bill"])
predefined plots
predefined multiple plots
Artificial Intelligence向けMathematics:体験統計学
母獣
統計モデリングの目標は,機械学習と統計学が共に追求する目標である適当な仮定の下で確率分布を推定(推定)することである.
しかし,限られた数のデータを観察するだけで募集団の分布を正確に理解することは不可能であるため,確率分布を近似的に推定することは不可能である.
予測モデルの目的は分布を正確にフィッティングすることではなく,データと推定方法の不確実性を考慮し,リスクを最小限に抑えることである.
データが特定の確率分布に従うと仮定した上で,その分布を決定するパラメータを推定する方法をパラメータメソッド論と呼ぶ.
特定の確率分布を仮定せずに、データに基づいてモデルの構造と親の個数を柔軟に変更する場合は、非親(非パラメータ)メソッド論と呼ばれます.->機械学習の多くの方法論は非数学方法論に属し,非数学方法論とは考えられない.
仮定確率分布
まずヒストグラムで形状を観察する
データが2つの値(0または1)しかない場合->バーヌ分布
データにn個の離散値がある場合->カテゴリ分布
データが[0,1]の間で値をとるとき->β分布
データ値が0より大きい場合は->ガンマ分布、ログ正規分布などです.
データがR範囲内で値->正規分布、ラプラス分布などを有する場合
確率分布を機械的に仮定することはできず,まずデータ生成の原理を考慮することが原則である.
データから親を推定
データの確率分布を仮定すると,ある数字を推定することができる.
正規分布のモード平均μ\muμ ぶんさんσ2\sigma^2σ2推定された統計データは以下の通りである.
統計量の確率分布はテーブルセット分布(samplign分布)
中心限界の定理:サンプル平均のテーブルセット分布が大きいほど,正規分布に従う.募集団の分布が正規分布に従わなくても成立する
最大可能度推定(MLE:最大尤度推定)
試料平均または試料分散は重要なフラックスであるが,確率分布によって使用される毛数が異なるため,対応する統計量も異なる.
理論的に最も可能性のある数字を推定する方法の一つである.
独立したデータセットXXX抽出時のログ可用性の最適化
なぜログイン可能度を使用するのですか?
最適化ログ可能度のパラメータは最適化可能度のMLEとなる.
データの数が数億単位に達すると、コンピュータの精度が可能な大きさを計算することはできません.
データが独立している場合は、ログを使用して可能度の乗算をログ可能度の加算に変換できるため、コンピュータで演算できます.
傾斜降下法を用いて可能性を最適化する場合には微分演算を用い,ログ可能性を用いた場合にはO(n 2)O(n^2)O(n 2)からO(n)O(n)O(n)O(n)n)O(n)に演算量を減少させる.
カニの損失関数については,負のログ可能性(負のlog−likelion)を最適化するために傾斜降下法を用いた.
深さ学習における最大可能性推定
最大可能度推定法を用いて機械学習モデルを学習することができる.
深度学習モデルのウェイトθ\thetaθ = (W1、…、WL)(W^1、…、W^L)
1つの熱ベクトルとして表される正しいラベルyyy=(y 1,...,yk)(y 1,...,yk)(y 1,...,yk)を観察データとして用いて,確率分布ソフトMaxベクトルのログ性を最適化する
かくりつぶんぷきょり
機械学習に用いられる損失関数をモデル学習の確率分布とデータから観測した確率分布の距離により導いた.
データ空間に2つの確率分布P(x)、Q(x)P(x)、Q(x)P(x)、Q(x)、Q(x)がある場合、2つの確率分布間の距離を計算する際に、以下の関数を使用します.
リュックサック-明るさを放つ
Reference
この問題について([Day 10]), 我々は、より多くの情報をここで見つけました https://velog.io/@dlehd1989/Day-10テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol