[AI Bootcamp] N211 - Simple Regression


Session Review


独立変数と依存変数

  • 独立変数(引数;x):調整(変更)可能
    =「説明」(Explanaratory)、「特性」(feature)
  • 依存変数(因変数;y):結果
    =ラベル(label)、ターゲット(target)
  • Linear Regression Model


    線形回帰モデル=変数を最も説明できる直線を描く

    さいしょうへいきんほう


    回帰線はx変数の平均値,y変数の平均値,b.c.線と変数の誤差の和が最小の線を通る
    予測値と観測値(目標値)の差=残差->残差二乗和=RSS=SSE(二乗誤差)=回帰モデルのコスト関数
    ->これらのコスト関数を最小化するモデルを探すプロセスは回帰モデル学習プロセスである

    予測値の式


    y^\hat{y}y^​ = Bo+B1xBo + B1 xBo+B1x
  • y^hat{y}y^:yの予測値(回帰線)
  • BoBoBoBo:yスライス
  • B 1 B 1:ループ傾斜
  • xxxx:独立変数
  • BoBoBoはどのようにB 1 B 1を獲得します


    B1B1B1
    x,yの平均値はそれぞれxˉ\bar{x}xˉ, yˉ\bar{y}yˉこんな時、
    BoBoBo = (x - xˉ\bar{x}xˉ)(y - yˉ\bar{y}yˉ)の和/(x-x)ˉ\bar{x}xˉ)^二の和
  • 独立変数、従属変数が正の関係=傾斜(B 1 B 1)正の
  • 独立変数、従属変数が負の関係=傾斜(B 1)負の値
  • ¥2,000勾配差の意味
    2つのモデルの傾斜角を比較すると,傾斜角が大きい=独立変数の違いが従属変数の変化量を大きくする
    BoBoBo
    予測値式ではy^hat{y}y^でyˉ\bar{y}yˉ入力値、xプラスxˉ\bar{x}xˉ 値を入力し、先に求めたB 1 B 1の値を代入します.

    Baseline Model


    👀 どうして標準モデルが必要ですか?
    モデル->モデルを作成する場合は、少なくともこのパフォーマンスが必要です.これは最も簡単で、最も低いパフォーマンス基準です.
    特定の問題の標準モデルの設定
  • 分類問題:ターゲットの最空きクラス
  • 回帰問題:目標平均値
  • クロック列回帰問題:古いタイムスタンプ値
  • リニア回帰では、データムモデルを作成するときに[平均](Average)を使用して、データムモデル自体が[平均](Average)ではなく、図全体を表示します.
    数字y^hat{y}y^,y.meanの違い
  • (y-y^hat{y}y^):作成したモデルの値と実際の値との誤差
  • (y-y.mean):標準モデルと実際の値との誤差
  • Simple Linear Regression


    散乱図画に最適なフィット直線を与えると、回帰予測モデルになります.
    ビジュアル化方法sns.regplot(x=독립변수, y=종속변수)

    scikit-learneで使用した線形回帰モデル解析


    sklearningでは、データ構造をマトリクス形式に変換し、属性データとターゲットデータに分ける必要があります.
  • 特性行列(X):一般に二次元行列-主にnp.arrayまたはpd.Dataframeで表される
  • ターゲットアレイ(y):通常は1次元であり、主にnp.arrayまたはpd.Seriesであり、
  • を表す.
    from sklearn.linear_model import LinearRegression
    
    model = LinearRegression() # 예측모델 인스턴스 만듦
    
    model.fit(X_train, y_train) # 모델을 학습
    model.predict(X_test) # 새로운 데이터를 예측
    

    Machine Learning process



    一般的なプログラミングと機械学習の違い
    ルールとデータを提供して答えを解く従来のプログラミングとは異なり、機械はデータと答えを通じてルールを見つける方法を学ぶ.

    線形回帰モデルの係数


    回帰係数(係数):model.coef_スライス(intercept):model.intercept_¥回帰係数はx(特性)が1増加したときのy(目標)変化量,すなわち戻り線の傾きを表す

    Food for Thought


    Tabular Data


    データ解析の重要な役割->table形式の2 Dシェイプ(row、columnが存在する)
    ❓ Matrix vs. Tabulix
    Tablix:一列に同じデータ型を持たなければならない.BUTとROWの他のデータ型も存在する.
    <>マトリクス:1つのマトリクスに同じデータ型しかありません
    Component of Tabular Data
  • Observations(row)
  • Variables(column)
  • Relationships(connection between each data in tables)
  • Dataframe vs. Matrix


    Pandasのデータフレームをsklearnにドラッグして計算しようとする場合は、数学的計算のためにマトリクスに変換する必要があります->
    なぜ
  • データフレームを使用するのか:データ競合:データから意味を抽出=抽出情報
  • マトリクスを使用する理由:機械学習はマトリクス形式を採用しなければならず、機械が高度に自動化されたコンピュータ->数学計算を行うことができるようにしなければならない.

    Supervised Learning


    PropertyClassification Regression(回帰)出力タイプDiscrete(クラスラベル)連続(数値)What you treat to find?Decision boundaries“Best fit line”EvaluationAccuracy“Sum of squared error” or “R squared”
    👀 現在の業界では、回帰を使用するよりも分類を使用します.
    b.c.正解率が高い->正解値を予測する場合、0または1のバイナリ分類を予測する場合、正解率が高い
    +)テーブル列回帰問題:時間の経過を見る->順序が重要!
    👀 指導学習-非指導学習の違い
    ラベルの有無の違い
    ->答えの有無で説明すると、少し穴があいているような気がする

    P-value


    p-value:False Positiveの比率->0.01(0.05)の場合、統計学的に有意(有意義)なb.c.p-valueの幅が小さいほど、私のモデルの解釈力が良いと言えます!
    P-valueとT-valueは同じと考えられる->データ解析は主にP-valueを用いる
    しかし、大学院生の研究、論文の執筆には、t-value b.c.t-valueを使用するのがより正確である.

    R-squared(R2R^2R2)


    モデルの説明力が0~1の値を表す->1の場合、モデルの説明は良好です(0の場合、プロパティとターゲットの間には関連付けられません).
    e.g.R 2 R^2 R 2=0.8の型番は80%の説明力を有する