[AI Bootcamp] N211 - Simple Regression
Session Review
独立変数と依存変数
=「説明」(Explanaratory)、「特性」(feature)
=ラベル(label)、ターゲット(target)
Linear Regression Model
線形回帰モデル=変数を最も説明できる直線を描く
さいしょうへいきんほう
回帰線はx変数の平均値,y変数の平均値,b.c.線と変数の誤差の和が最小の線を通る
予測値と観測値(目標値)の差=残差->残差二乗和=RSS=SSE(二乗誤差)=回帰モデルのコスト関数
->これらのコスト関数を最小化するモデルを探すプロセスは回帰モデル学習プロセスである
予測値の式
y^\hat{y}y^ = Bo+B1xBo + B1 xBo+B1x
BoBoBoはどのようにB 1 B 1を獲得します
B1B1B1
x,yの平均値はそれぞれxˉ\bar{x}xˉ, yˉ\bar{y}yˉこんな時、
BoBoBo = (x - xˉ\bar{x}xˉ)(y - yˉ\bar{y}yˉ)の和/(x-x)ˉ\bar{x}xˉ)^二の和
2つのモデルの傾斜角を比較すると,傾斜角が大きい=独立変数の違いが従属変数の変化量を大きくする
BoBoBo
予測値式ではy^hat{y}y^でyˉ\bar{y}yˉ入力値、xプラスxˉ\bar{x}xˉ 値を入力し、先に求めたB 1 B 1の値を代入します.
Baseline Model
👀 どうして標準モデルが必要ですか?
モデル->モデルを作成する場合は、少なくともこのパフォーマンスが必要です.これは最も簡単で、最も低いパフォーマンス基準です.
特定の問題の標準モデルの設定
数字y^hat{y}y^,y.meanの違い
Simple Linear Regression
散乱図画に最適なフィット直線を与えると、回帰予測モデルになります.
ビジュアル化方法
sns.regplot(x=독립변수, y=종속변수)
scikit-learneで使用した線形回帰モデル解析
sklearningでは、データ構造をマトリクス形式に変換し、属性データとターゲットデータに分ける必要があります.
np.array
またはpd.Dataframe
で表されるnp.array
またはpd.Series
であり、from sklearn.linear_model import LinearRegression
model = LinearRegression() # 예측모델 인스턴스 만듦
model.fit(X_train, y_train) # 모델을 학습
model.predict(X_test) # 새로운 데이터를 예측
Machine Learning process
一般的なプログラミングと機械学習の違い
ルールとデータを提供して答えを解く従来のプログラミングとは異なり、機械はデータと答えを通じてルールを見つける方法を学ぶ.
線形回帰モデルの係数
回帰係数(係数):
model.coef_
スライス(intercept):model.intercept_
¥回帰係数はx(特性)が1増加したときのy(目標)変化量,すなわち戻り線の傾きを表すFood for Thought
Tabular Data
データ解析の重要な役割->table形式の2 Dシェイプ(row、columnが存在する)
❓ Matrix vs. Tabulix
Tablix:一列に同じデータ型を持たなければならない.BUTとROWの他のデータ型も存在する.
<>マトリクス:1つのマトリクスに同じデータ型しかありません
Component of Tabular Data
Dataframe vs. Matrix
Pandasのデータフレームをsklearnにドラッグして計算しようとする場合は、数学的計算のためにマトリクスに変換する必要があります->
なぜ
Supervised Learning
PropertyClassification Regression(回帰)出力タイプDiscrete(クラスラベル)連続(数値)What you treat to find?Decision boundaries“Best fit line”EvaluationAccuracy“Sum of squared error” or “R squared”
👀 現在の業界では、回帰を使用するよりも分類を使用します.
b.c.正解率が高い->正解値を予測する場合、0または1のバイナリ分類を予測する場合、正解率が高い
+)テーブル列回帰問題:時間の経過を見る->順序が重要!
👀 指導学習-非指導学習の違い
ラベルの有無の違い
->答えの有無で説明すると、少し穴があいているような気がする
P-value
p-value:False Positiveの比率->0.01(0.05)の場合、統計学的に有意(有意義)なb.c.p-valueの幅が小さいほど、私のモデルの解釈力が良いと言えます!
P-valueとT-valueは同じと考えられる->データ解析は主にP-valueを用いる
しかし、大学院生の研究、論文の執筆には、t-value b.c.t-valueを使用するのがより正確である.
R-squared(R2R^2R2)
モデルの説明力が0~1の値を表す->1の場合、モデルの説明は良好です(0の場合、プロパティとターゲットの間には関連付けられません).
e.g.R 2 R^2 R 2=0.8の型番は80%の説明力を有する
Reference
この問題について([AI Bootcamp] N211 - Simple Regression), 我々は、より多くの情報をここで見つけました https://velog.io/@jinyjib/AI-Bootcamp-N211-Simple-Regressionテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol