[Day 10]


2021年春季合宿日10日


[Day 10]可視化/統計学


Data Visualization - Graph tools


matplotlib

  • Pythonの代表的な可視化ツール
  • 複数パターン対応Pandas連動
  • pyplotオブジェクトでデータを表示する
  • pyplotオブジェクトにグラフィックを重ねてリフレッシュ
  • 最大の欠点を自慢する・バンバ
  • 定説がなくalt+tabで確認するのは難しい
  • 元の図形オブジェクトに図形を作成する
  • pyplotオブジェクトを使用する場合、基本図形にグラフ表を描画する
  • Figure & Axes

  • Matplotlib FigureでAxesからなる
  • Figureに複数のAxesを作成
  • fig = plt.figure() # figure 반환
    fig.set_size_inches(10,5) # 크기 지정
    ax_1 = fig.add_subplot(1,2,1) # 두개의 plot 생성
    ax_2 = fig.add_subplot(1,2,2) # 두개의 plot 생성
    
    ax_1.plot(X_1, Y_1, c="b")
    ax_2.plot(X_2, Y_2, c="g")
    plot.show() # show & flush

    subplots

  • サブブロックの順序でメッシュを作成する
  • set color

  • color属性を使う
  • float:白黒、rgb色、事前定義色使用
  • set linestyle

  • lsまたはlinestyle使用
  • plt.plot(X_1, Y_1, c="b", linestyle="dashed")
    plt.plot(X_1, Y_1, c="r", ls="dotted")
    plt.show()

    set title

  • pyplotでtitle関数を使用し、図のサブブロックで入力可能
  • Latexタイプの表現も可能(修飾可能)
  • plt.title("Two lines")
    plt.title('$y = \\frac{ax+b){test}$')

    set legend

  • legend関数で凡例を表示し、loc位置などの属性を指定する
  • plt.legend(shadow=True, fancybox=True, loc="lower right")

    set grid & xylim

  • 図形描画補助線のグリッドとxy軸の範囲制限を指定
  • plt.grid(True, lw=0.4, ls="--", c=".90")
    plt.xlim(-100, 200)
    plt.ylim(-200,200)

    matplotlib graph


    scatter

  • scatter使用関数marker:scatter指定形状
  • plt.scatter(data_1, data_2, c="b", marker="x")
  • s:データのサイズを指定し、データのサイズを比較可能
  • colors = np.random.rand(N)
    plt.scatter(x, y, s=area, c=colors, alpha=0.5)

    bar chart

  • bar使用関数
  • plt.bar(x, y, color="b", width=0.25)

    histogram

    plt.hist(x, bins=100)

    boxplot

    plt.boxplot(data)

    Seaborn : statistical data visualization


    seaborn

  • 既存mtplotlibにデフォルト設定を追加
  • 複雑な図形を簡略化できる包装器
  • 単純コード+綺麗な結果
  • basic plots

  • matplotlib等基本plot
  • データを簡単に計算
  • lineplot、散点図、県域図等
  • sns.lineplot(x="total_bill", y="tip", data=tips)
    sns.scatterplot(x="total_bill", y="tip", data=tips)
    sns.countplot(x="smoker", data=tips)
    sns.barplot(x="day", y="tip", data=tips)
    sns.displot(tips["total_bill"])

    predefined plots

  • Viloinplot:boxplotで分布を同時に示す
  • Stripplot:分散を分類情報とともに提示
  • Swarmplot:分布とともに散布表示
  • Pointplot:数値の平均値、信頼区間をカテゴリ別に表示
  • regplot:散点+線形関数ともに表示
  • predefined multiple plots

  • replot:デジタルデータ中心の分布・リニア表示
  • catplot:categoryデータを中心としたタグ
  • FacetGrid:特定の条件に応じてグリッド表示で異なる描画
  • pairplot:データ間の相関を表示する
  • Implot:回帰モデルをcategoryデータとともに表示する
  • Artificial Intelligence向けMathematics:体験統計学


    母獣


  • 統計モデリングの目標は,機械学習と統計学が共に追求する目標である適当な仮定の下で確率分布を推定(推定)することである.

  • しかし,限られた数のデータを観察するだけで募集団の分布を正確に理解することは不可能であるため,確率分布を近似的に推定することは不可能である.

  • 予測モデルの目的は分布を正確にフィッティングすることではなく,データと推定方法の不確実性を考慮し,リスクを最小限に抑えることである.

  • データが特定の確率分布に従うと仮定した上で,その分布を決定するパラメータを推定する方法をパラメータメソッド論と呼ぶ.

  • 特定の確率分布を仮定せずに、データに基づいてモデルの構造と親の個数を柔軟に変更する場合は、非親(非パラメータ)メソッド論と呼ばれます.->機械学習の多くの方法論は非数学方法論に属し,非数学方法論とは考えられない.
  • 仮定確率分布


  • まずヒストグラムで形状を観察する

  • データが2つの値(0または1)しかない場合->バーヌ分布

  • データにn個の離散値がある場合->カテゴリ分布

  • データが[0,1]の間で値をとるとき->β分布

  • データ値が0より大きい場合は->ガンマ分布、ログ正規分布などです.

  • データがR範囲内で値->正規分布、ラプラス分布などを有する場合

  • 確率分布を機械的に仮定することはできず,まずデータ生成の原理を考慮することが原則である.
  • データから親を推定


  • データの確率分布を仮定すると,ある数字を推定することができる.

  • 正規分布のモード平均μ\muμ ぶんさんσ2\sigma^2σ2推定された統計データは以下の通りである.


  • 統計量の確率分布はテーブルセット分布(samplign分布)

  • 中心限界の定理:サンプル平均のテーブルセット分布が大きいほど,正規分布に従う.募集団の分布が正規分布に従わなくても成立する
  • 最大可能度推定(MLE:最大尤度推定)


  • 試料平均または試料分散は重要なフラックスであるが,確率分布によって使用される毛数が異なるため,対応する統計量も異なる.

  • 理論的に最も可能性のある数字を推定する方法の一つである.


  • 独立したデータセットXXX抽出時のログ可用性の最適化

  • なぜログイン可能度を使用するのですか?


  • 最適化ログ可能度のパラメータは最適化可能度のMLEとなる.

  • データの数が数億単位に達すると、コンピュータの精度が可能な大きさを計算することはできません.

  • データが独立している場合は、ログを使用して可能度の乗算をログ可能度の加算に変換できるため、コンピュータで演算できます.

  • 傾斜降下法を用いて可能性を最適化する場合には微分演算を用い,ログ可能性を用いた場合にはO(n 2)O(n^2)O(n 2)からO(n)O(n)O(n)O(n)n)O(n)に演算量を減少させる.

  • カニの損失関数については,負のログ可能性(負のlog−likelion)を最適化するために傾斜降下法を用いた.
  • 深さ学習における最大可能性推定


  • 最大可能度推定法を用いて機械学習モデルを学習することができる.

  • 深度学習モデルのウェイトθ\thetaθ = (W1、…、WL)(W^1、…、W^L)

  • 1つの熱ベクトルとして表される正しいラベルyyy=(y 1,...,yk)(y 1,...,yk)(y 1,...,yk)を観察データとして用いて,確率分布ソフトMaxベクトルのログ性を最適化する

  • かくりつぶんぷきょり


  • 機械学習に用いられる損失関数をモデル学習の確率分布とデータから観測した確率分布の距離により導いた.

  • データ空間に2つの確率分布P(x)、Q(x)P(x)、Q(x)P(x)、Q(x)、Q(x)がある場合、2つの確率分布間の距離を計算する際に、以下の関数を使用します.
  • 総可変距離
  • 冷却バックライト発散(KL)
  • バスタン通り
  • リュックサック-明るさを放つ

  • 分類問題において、正解ラベルをPPPとし、モデル予測をQQとすると、最大可能度推定法は、冷背−明背発散を最小化することに等しい.