[AI Bootcamp] N211 - Simple Regression

4342 ワード

ハーモニーデータムモデル AI せんけいかいきモデル学習を指導する. データ科学 bootcamp テキストリンク

Session Review

独立変数と依存変数

独立変数(引数;x):調整(変更)可能
=「説明」(Explanaratory)、「特性」(feature)

依存変数(因変数;y):結果
=ラベル(label)、ターゲット(target)

Linear Regression Model

線形回帰モデル=変数を最も説明できる直線を描く

さいしょうへいきんほう

回帰線はx変数の平均値,y変数の平均値,b.c.線と変数の誤差の和が最小の線を通る
予測値と観測値(目標値)の差=残差->残差二乗和=RSS=SSE(二乗誤差)=回帰モデルのコスト関数
->これらのコスト関数を最小化するモデルを探すプロセスは回帰モデル学習プロセスである

予測値の式

y^\hat{y}y^ = Bo+B1xBo + B1 xBo+B1x

y^hat{y}y^:yの予測値(回帰線)

BoBoBoBo:yスライス

B 1 B 1:ループ傾斜

xxxx:独立変数

BoBoBoはどのようにB 1 B 1を獲得します

B1B1B1
x,yの平均値はそれぞれxˉ\bar{x}xˉ, yˉ\bar{y}yˉこんな時、
BoBoBo = (x - xˉ\bar{x}xˉ)(y - yˉ\bar{y}yˉ)の和/(x-x)ˉ\bar{x}xˉ)^二の和

独立変数、従属変数が正の関係=傾斜(B 1 B 1)正の

独立変数、従属変数が負の関係=傾斜(B 1)負の値

¥2,000勾配差の意味
2つのモデルの傾斜角を比較すると,傾斜角が大きい=独立変数の違いが従属変数の変化量を大きくする
BoBoBo
予測値式ではy^hat{y}y^でyˉ\bar{y}yˉ入力値、xプラスxˉ\bar{x}xˉ 値を入力し、先に求めたB 1 B 1の値を代入します.

Baseline Model

👀 どうして標準モデルが必要ですか?
モデル->モデルを作成する場合は、少なくともこのパフォーマンスが必要です.これは最も簡単で、最も低いパフォーマンス基準です.
特定の問題の標準モデルの設定

分類問題:ターゲットの最空きクラス

回帰問題:目標平均値

クロック列回帰問題:古いタイムスタンプ値

リニア回帰では、データムモデルを作成するときに[平均](Average)を使用して、データムモデル自体が[平均](Average)ではなく、図全体を表示します.
数字y^hat{y}y^,y.meanの違い

(y-y^hat{y}y^):作成したモデルの値と実際の値との誤差

(y-y.mean):標準モデルと実際の値との誤差

Simple Linear Regression

散乱図画に最適なフィット直線を与えると、回帰予測モデルになります.
ビジュアル化方法sns.regplot(x=독립변수, y=종속변수)

scikit-learneで使用した線形回帰モデル解析

sklearningでは、データ構造をマトリクス形式に変換し、属性データとターゲットデータに分ける必要があります.

特性行列(X):一般に二次元行列-主にnp.arrayまたはpd.Dataframeで表される

ターゲットアレイ(y):通常は1次元であり、主にnp.arrayまたはpd.Seriesであり、

を表す.

from sklearn.linear_model import LinearRegression

model = LinearRegression() # 예측모델 인스턴스 만듦

model.fit(X_train, y_train) # 모델을 학습
model.predict(X_test) # 새로운 데이터를 예측

Machine Learning process

一般的なプログラミングと機械学習の違い
ルールとデータを提供して答えを解く従来のプログラミングとは異なり、機械はデータと答えを通じてルールを見つける方法を学ぶ.

線形回帰モデルの係数

回帰係数(係数):model.coef_スライス(intercept):model.intercept_¥回帰係数はx(特性)が1増加したときのy(目標)変化量,すなわち戻り線の傾きを表す

Food for Thought

Tabular Data

データ解析の重要な役割->table形式の2 Dシェイプ(row、columnが存在する)
❓ Matrix vs. Tabulix
Tablix:一列に同じデータ型を持たなければならない.BUTとROWの他のデータ型も存在する.
<>マトリクス:1つのマトリクスに同じデータ型しかありません
Component of Tabular Data

Observations(row)

Variables(column)

Relationships(connection between each data in tables)

Dataframe vs. Matrix

Pandasのデータフレームをsklearnにドラッグして計算しようとする場合は、数学的計算のためにマトリクスに変換する必要があります->
なぜ

データフレームを使用するのか:データ競合:データから意味を抽出=抽出情報

マトリクスを使用する理由:機械学習はマトリクス形式を採用しなければならず、機械が高度に自動化されたコンピュータ->数学計算を行うことができるようにしなければならない.

Supervised Learning

PropertyClassification Regression(回帰)出力タイプDiscrete(クラスラベル)連続(数値)What you treat to find?Decision boundaries“Best fit line”EvaluationAccuracy“Sum of squared error” or “R squared”
👀 現在の業界では、回帰を使用するよりも分類を使用します.
b.c.正解率が高い->正解値を予測する場合、0または1のバイナリ分類を予測する場合、正解率が高い
+)テーブル列回帰問題:時間の経過を見る->順序が重要!
👀 指導学習-非指導学習の違い
ラベルの有無の違い
->答えの有無で説明すると、少し穴があいているような気がする

P-value

p-value:False Positiveの比率->0.01(0.05)の場合、統計学的に有意(有意義)なb.c.p-valueの幅が小さいほど、私のモデルの解釈力が良いと言えます!
P-valueとT-valueは同じと考えられる->データ解析は主にP-valueを用いる
しかし、大学院生の研究、論文の執筆には、t-value b.c.t-valueを使用するのがより正確である.

R-squared(R2R^2R2)

モデルの説明力が0～1の値を表す->1の場合、モデルの説明は良好です(0の場合、プロパティとターゲットの間には関連付けられません).
e.g.R 2 R^2 R 2=0.8の型番は80%の説明力を有する

Reference

この問題について([AI Bootcamp] N211 - Simple Regression), 我々は、より多くの情報をここで見つけました https://velog.io/@jinyjib/AI-Bootcamp-N211-Simple-Regression

テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。

Collection and Share based on the CC Protocol

コンパイル最適化

コンピュータ言語はどのように設計されたのか