機械学習—sklearnデータ処理雑談
目次 データ処理 データ欠落 データ非数値 機械学習 フレーム Scikit-learn
モデル 定義 決定ツリー ランダム森林 XGBoost
特徴 適応 予測 評価 評価パラメータ Mean Absolute Error(MAE)絶対平平均差 補助評価 データランダム分割
最適化 オーバーフィット、アンダーフィット
データしょり
データ欠落直接削除:1つのエントリのデータの大部分の欠損について直接削除できます. 補間:欠落した部分を推定値で埋め、欠落が多すぎないことを前提とします.≪補間拡張|Interpolation Extension|ldap≫:補間後にエントリの入力位置を追加します.
補間はモジュールをロードする必要があります:
(例)
データ非数値 Drop Categorical Variables:ダイレクト Label Encoding:異なるデータを数値でマークするためにモジュールをロードする必要がある: One-hot encoding:異なるラベルを設定し、各ラベルには0 1と2の値しかありません.オンデマンド・モジュール:
(例)
機械学習
フレーム
Scikit-learn
基本機能:主に6つの大部分に分けられます:分類、回帰、クラスタリング、データ降次元、モデル選択とデータ前処理.
モデル#モデル#
定義#テイギ#ランダム性:多くの機械学習モデルはモデル訓練においていくつかのランダム性を許容する.良い方法はrandom_を使うことですstateは、実行するたびに同じ結果が得られるように数値を指定します.
けっていじゅ
難易度:⭐ モジュールをロードする必要があります:
チュートリアル:(公式マニュアル)https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html(例)メルボルン住宅価格予測⭐ タイタニック号データ分析⭐
ランダム森林
難易度:⭐ モジュールをロードする必要があります:
メリット:予測精度は決定ツリー より高い.
チュートリアル:(公式マニュアル)https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier(例)メルボルン住宅価格予測⭐
XGBoost
やっと誰かがはっきり言った-XGBoostアルゴリズム
とくせい
てきおう
予測
評価
評価パラメータ
Mean Absolute Error(MAE)絶対平均偏差
式:error=actual−predictedはモジュールをロードする必要があります:
補助評価
データランダム分割
目的:データを訓練データと検証データに分割し、パラメータ評価を使用してデータ(validation data)を検証し、関係のない特徴を排除する.モジュールをロードする必要があります:
最適化
オーバーフィット
簡単な説明:フィットとは、トレーニングデータとモデルのマッチングの程度を指します.オーバーフィット指マッチングの程度が極めて高く、新しいデータ予測を使用する場合に理想的ではありません.不適合とは、モデルとトレーニングデータが一致しないことを意味します.検出:方法モデルパラメータを調整し、パラメータ評価を行う.評価結果が満足するまで繰り返します.
データしょり
データ欠落
補間はモジュールをロードする必要があります:
#
from sklearn.impute import SimpleImputer
(例)
データ非数値
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
(例)
機械学習
フレーム
Scikit-learn
基本機能:主に6つの大部分に分けられます:分類、回帰、クラスタリング、データ降次元、モデル選択とデータ前処理.
モデル#モデル#
定義#テイギ#
けっていじゅ
難易度:⭐ モジュールをロードする必要があります:
from sklearn.tree import DecisionTreeRegressor
チュートリアル:(公式マニュアル)https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html(例)メルボルン住宅価格予測⭐ タイタニック号データ分析⭐
ランダム森林
難易度:⭐ モジュールをロードする必要があります:
from sklearn.ensemble import RandomForestRegressor
メリット:
チュートリアル:(公式マニュアル)https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier(例)メルボルン住宅価格予測⭐
XGBoost
やっと誰かがはっきり言った-XGBoostアルゴリズム
とくせい
てきおう
予測
評価
評価パラメータ
Mean Absolute Error(MAE)絶対平均偏差
式:error=actual−predictedはモジュールをロードする必要があります:
from sklearn.metrics import mean_absolute_error
補助評価
データランダム分割
目的:データを訓練データと検証データに分割し、パラメータ評価を使用してデータ(validation data)を検証し、関係のない特徴を排除する.モジュールをロードする必要があります:
from sklearn.model_selection import train_test_split
最適化
オーバーフィット
簡単な説明:フィットとは、トレーニングデータとモデルのマッチングの程度を指します.オーバーフィット指マッチングの程度が極めて高く、新しいデータ予測を使用する場合に理想的ではありません.不適合とは、モデルとトレーニングデータが一致しないことを意味します.検出: