[TIL]Day 8-人工知能数学(5)


かくりつぶんぷ


ランダム変数


:ランダムな実験結果に依存する「実数」(サンプル空間のサブセット)
  • 離散確率変数(離散ランダム変数)
    :すべての数値が数えられる場合の実験結果値ex)サイコロ、コイン
  • 連続確率変数(連続ランダム変数)
    :数え切れないほどの実験結果値ex)全校男子の身長
  • かくりつぶんぷ


    確率変数が特定の値を持つ確率を表す関数.
    ex)サイコロを2個投げる実験ファミリー
  • 確率変数X:サイコロ数字の差(実数)
  • Xの値:0、1、2、...、5
  • P(X=5)=236=118P(X=5) =\frac{2}{36} =\frac{1}{18}P(X=5)=362​=181​
    (1、6)、(6、1)
  • →rightarrow→サイコロを投げると確率変数X値が変化します.
    →rightarrow→n回の実験でn個のX値が得られた.
    →rightarrow→n個の数字の平均と分散が計算できる.
    →rightarrow→確率変数Xも平均と分散性を持つ.
    △このときの平均と分散は、募集団の平均と分散といえる.

    りさんかくりつぶんぷ


    離散確率変数Xの確率P(X=x)=f(x)P(X=x)=f(x)P(X=x)=f(x)->確率質量関数

    離散確率変数XXXの平均値(期待値、期待値)


    E(X)=∑xxP(X=x)=∑xxf(x)E(X) =\sum_{x}^{} xP(X=x) =\sum_{x}^{} xf(x)E(X)=∑x​xP(X=x)=∑x​xf(x)

    離散確率変数XXXの分散


    : (X−μ)2(X-\mu)^2(X−μ)2の平均値
    σ2=Var(X)=∑x(x−μ)2f(x)\sigma^2 = Var(X) =\sum_{x}^{} (x-\mu)^2f(x)σ2=Var(X)=∑x​(x−μ)2f(x)
    =E(X2)−E(X)2= E(X^2) - {E(X)}^2=E(X2)−E(X)2

    離散確率変数XXXの標準偏差


    SD(X)=σ=∑x(x−μ)2f(x)SD(X) =\sigma =\sqrt{\sum_{x}^{} (x-\mu)^2f(x)}SD(X)=σ=∑x​(x−μ)2f(x)​

    れんけつかくりつぶんぷ


    2つ以上の確率変数の確率分布を同時に考慮する.
    ex)確率変数X:学生が持つ携帯電話の数
    確率変数Y:学生が持つノートパソコンの数
    →rightarrow→結合確率分布テーブルで各確率変数の確率分布を導出できる.
    →rightarrow→周辺確率分布(境界確率分布)

    きょうぶんさん


    X,Yの2つの確率変数の線形関係を表す値.
    0に近づくほど、X、Yは関係ありません.
    Cov⁡(X,Y)=E⁡((X−μ)(Y−ν)) {\displaystyle\operatorname {Cov} (X,Y)=\operatorname {E}\left((X-\mu )(Y-\nu )\right)\,}Cov(X,Y)=E((X−μ)(Y−ν))
    =E(XY)−E(X)E(Y)= E(XY) - E(X)E(Y)=E(XY)−E(X)E(Y)

    そうかんけいすう


    2つの変数間の統計的関係を表すために,ある程度の相関係の係数を数値で表す.
    (センチメートル分散は各確率変数の絶対サイズの影響を受け、センチメートル分散では確率変数の標準偏差の積でそれぞれ除算し、単位への影響を相殺することができる.)
    Corr⁡(X,Y)=Cov(X,Y) σxσy⁡{\displaystyle\operatorname {Corr} (X,Y)=\operatorname\frac{{Cov}\left(X,Y\right)\,}{\sigma_x\sigma_y}}Corr(X,Y)=σx​σy​Cov(X,Y)​

    にこうぶんぷ


    n次ベルヌーイ実施における成功回数を確率変数とする確率分布P=P=成功確率
    一般に、確率変数Kがパラメータnとpの二項分布に従う場合.
    K B(n,p)K ~ B(n,p)K B(n,p)と書きます.
    n回の実施におけるr回の成功確率は確率質量関数である
    f(x)=P(X=x)=(nr)Px(1−P)n−xf(x) = P(X=x) =\begin{pmatrix} n\\r\end{pmatrix}P^x(1-P)^{n-x}f(x)=P(X=x)=(nr​)Px(1−P)n−x
    ※ベルヌーイ試験(Bernoulli試験)
    :2つの結果しかない実験ex)コインの前後、サイコロ奇数の失敗、成功
    from scipy improt stats
    f = 1-stats.binom.cdf(0,n=3,p=0.2)
    #Cumulative distribution function 누적 분포 함수
    「scipy」を参照
    https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html

    にこうぶんぷのへいきん


    E(X)=nPE(X)=nPE(X)=np(実行回数x成功確率)

    にこうぶんぷぶんさん


    Var(X)=np(1−p)Var(X) = np(1-p)Var(X)=np(1−p)

    二項分布の標準偏差


    SD(X)=np(1−p)SD(X) =\sqrt{np(1-p)}SD(X)=np(1−p)​
    stats.binom.stats(n=3,p=0.2)
    # array(0.6) array(0.48)
    # 평균 = 0.6 , 분산 = 0.48

    せいじょうぶんぷ


    れんぞくかくりつへんすうのかくりつぶんぷ


    f(x)=P[a≤X≤b]=∫abf(x)dxf(x) = P[ a\leq X\leq b] =\int_a^bf(x)dxf(x)=P[a≤X≤b]=∫ab​f(x)dx

    正規分布の確率密度関数


    f(x)=1σ2π  exp⁡(−(x−μ)22σ2) ⁣f(x) = {\frac 1{\sigma {\sqrt {2\pi }}}}\;\exp\left(-{\frac {\left(x-\mu\right)^{2}}{2\sigma ^{2}}}\right)\!f(x)=σ2π​1​exp(−2σ2(x−μ)2​)
    正規分布表示
    XXX~N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)

    ひょうじゅんせいきかくりつへんすう


    Z=X−μσ{\displaystyle Z={\frac {X-\mu }{\sigma }}}Z=σX−μ​

    ひょうじゅんせいじょうぶんぷ

  • ZZZZZZ~N(0,1)N(0,1)→右矢印→平均=1、標準偏差=1
  • 標準正規分布テーブル(https://bit.ly/3eQJpei)
  • ex) XXX~N(4,32)N(4,3^2)N(4,32), P[X≤4]?P[X\leq4]?P[X≤4]?
    stats.norm.cdf(4,loc=4,scale=3) # loc = 평균, scale = 표준편차 -> 0.5

    ポアソンぶんぷ


    一定時間単位または空間単位内で発生するイベント数の確率分布
    1日以内にWebサイトにアクセスするアクセス者の数
  • P[X=x]=f(x)=λxe−λx!P[X=x] = f(x) =\lambda^x\frac{e^{-\lambda}}{x!}P[X=x]=f(x)=λxx!e−λ​ ( x = 0,1,2 ~)
  • 平均
  • =分布=λ\lambdaλ
  • stats.poisson.cdf(2,mu=3) # mu = 평균

    しすうぶんぷ


    ポアソン分布によれば,イベント発生時にある時点からイベント発生に要する時間までの確率分布である.
  • f(t)=λe−λtf(t) =\lambda e^{-\lambda t}f(t)=λe−λt (λ\lambdaλ 平均分布:
  • 平均値
  • =E(T)=1λE(T) =\frac{1}{\lambda}E(T)=λ1​
  • 分布=Var(T)=1λ2Var(T) =\frac{1}{\lambda^2}Var(T)=λ21​
  • lam = 3
    stats.expon.cdf(0.5,scale = 1/lam) # scale = 표준편차
    # 0.7768698398515702