回帰


回帰(Regression)


  • 定義:連続変数関係を複数のデータに基づいてモデリングし、適合度を測定します.これは、独立変数と依存変数との相関を意味します.

  • 例:親と子の関係、住宅価格予測、自動車仕様による価格予測

  • タイプ:線形回帰解析/論理回帰解析

  • 特徴:学習中の回帰問題を指導するために用いられ、データx中の複数の特徴を用いてYクラス推定(クラス出力確率値)を行う
  • せんけいかいきかいせき


  • 定義:2つの変数間の関係が直線であると仮定し、分析できます.
    :従属変数Yと独立変数Xとの間の線形相関関係をモデリングする方法.
    :つまり、新しいデータの入力を予測する値
    :連続変数の場合に使用できます.カテゴリが表示された場合は、スタック変数を変換します.

  • 条件:
    	- 선형성: 예측하고자하는 종속변수와 독립변수 간에 선형성을 만족함. 
    
    - 선형성 만들기
        
         i) 다른 새로운 변수 추가
         
         ii) 로그, 지수, 루트 등 변수변환
         
         iii) 아예 선형성 만족하지 않는 변수 제거
         
         iv) 선형 회귀 모델 만들고 변수 선택법으로 통과

  • 独立性:独立変数xに依存しない
  • 独立性iを作成)多重共線形性を引き起こす変数iiを除去)
  • を他の変数で置換する.

  • 等分散性:分散が同じであるため、特定のボルトンがなく、分布が均一である.

  • 正規性:正規分布があるかどうかを示す

  • 分類:独立変数の数./1個-単純線形回帰/2個以上-多重線形回帰
  • 線形回帰の様々な式。


  • リニア回帰モデリング
    線形回帰式:
    :回帰係数βと依存変数と独立変数との間に生じる誤差を加算します.これはパラメータです.

  • 機械学習における線形回帰モデル表現

  • 上の式を機械学習のようにし,Hは仮定し,Wは重み付けし,xは特性ベクトル,bは偏向している.
    目的は与えられたデータのWとbを求めることである.
  • 用語表

  • ≪リアル・データ|Real Data|emdw≫:回帰モデルを使用して推定された値と実際のデータの違い

  • 最小二乗法:所与の点データを残差で記述する.
    すなわち,n個の点データに対して,残差二乗と最小のW,Bを求める.
  • データセット(ボストン住宅価格データセット)
  • を準備する
    :scikit-学習ライブラリから提供されるデータセットを使用します.

    print(boston[「DESCR」)-データの各プロパティを表します.
    線形回帰を
  • Bostonデータセット
  • に適用する
  • 勾配降下法
  • :適切な回帰モデルの回帰係数を見つけ、損失関数を設定する(W,bを求める)


    αは学習率であり,値が大きいほど収束が速くなるが,大きすぎると最適Wを超える可能性がある.適切な学習率を選ぶことが重要です.

    ろんりかいふく


  • 定義:0から1までの値を予測し、属する可能性のあるカテゴリを分類する方法を学習します.

  • バイナリ分類で主に使用されます.

  • 推定確率が50%を超えるモデルはこのクラスに属する.
    ラベルが1の場合は、陽性クラスまたはラベルが0の音声クラスに分類されます.

  • 重み付け和を計算し、結果を直接出力するのではなく、欠落したフラグを出力します.

  • 従属変数方向確率変数方向.
  • 定義と用語の説明

  • 論理回帰式:従属変数が0の確率をP(y=0|x)と呼び,求めた式を
  • とする.
  • ODS:イベント発生確率/未発生確率
  • logを対数(線形回帰解析の従属変数)
  • とする.
  • 実際に求めた値式

  • Sigmoid function

  • 0~1の値をS字で出力する関数
  • 予測フェーズ

  • 実際のデータの取得->ODSと回帰係数

  • Log-orbos計算->sigmoid関数の入力->特定のカテゴリに属する確率の計算

  • 設定したしきい値によるバイナリ分類(1または0)
  • Softmax関数とCross-Etropy


    Softmax関数



    :各クラスの確率を推定する
    :マルチカテゴリ分類の関数
    :すべてのカテゴリのsoftmaxの値を1に加算(確率の合計は1)
    :大log-orderと小log-orderの違いを最大限に高める.
    :one-hot符号化(0と1に分ける)

    Cross Entropy



    :学習重み付け値が最適化されるほどH(p,q)値が小さくなる
    :p(x)-実際のデータのカテゴリ
    :q(x)-ソフトmaxの結果値を入力
    :softmax関数の損失関数
    :コスト関数を最小化して予測対象カテゴリの低確率モデルを抑制することで、高確率の対象カテゴリを得ることができる
    :k=2,費用関数はLogistic回帰の費用関数に等しい.

    Simple Is Best