機械学習—sklearnデータ処理雑談


目次
  • データ処理
  • データ欠落
  • データ非数値
  • 機械学習
  • フレーム
  • Scikit-learn

  • モデル
  • 定義
  • 決定ツリー
  • ランダム森林
  • XGBoost

  • 特徴
  • 適応
  • 予測
  • 評価
  • 評価パラメータ
  • Mean Absolute Error(MAE)絶対平平均差
  • 補助評価
  • データランダム分割

  • 最適化
  • オーバーフィット、アンダーフィット




  • データしょり
    データ欠落
  • 直接削除:1つのエントリのデータの大部分の欠損について直接削除できます.
  • 補間:欠落した部分を推定値で埋め、欠落が多すぎないことを前提とします.≪補間拡張|Interpolation Extension|ldap≫:補間後にエントリの入力位置を追加します.

  • 補間はモジュールをロードする必要があります:
    #       
    from sklearn.impute import SimpleImputer
    

    (例)
    データ非数値
  • Drop Categorical Variables:ダイレクト
  • Label Encoding:異なるデータを数値でマークするためにモジュールをロードする必要がある:
  • from sklearn.preprocessing import LabelEncoder
    
  • One-hot encoding:異なるラベルを設定し、各ラベルには0 1と2の値しかありません.オンデマンド・モジュール:
  • from sklearn.preprocessing import OneHotEncoder
    

    (例)
    機械学習
    フレーム
    Scikit-learn
    基本機能:主に6つの大部分に分けられます:分類、回帰、クラスタリング、データ降次元、モデル選択とデータ前処理.
    モデル#モデル#
    定義#テイギ#
  • ランダム性:多くの機械学習モデルはモデル訓練においていくつかのランダム性を許容する.良い方法はrandom_を使うことですstateは、実行するたびに同じ結果が得られるように数値を指定します.

  • けっていじゅ
    難易度:⭐ モジュールをロードする必要があります:
    from sklearn.tree import DecisionTreeRegressor
    

    チュートリアル:(公式マニュアル)https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html(例)メルボルン住宅価格予測⭐ タイタニック号データ分析⭐
    ランダム森林
    難易度:⭐ モジュールをロードする必要があります:
    from sklearn.ensemble import RandomForestRegressor
    

    メリット:
  • 予測精度は決定ツリー
  • より高い.
    チュートリアル:(公式マニュアル)https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier(例)メルボルン住宅価格予測⭐
    XGBoost
    やっと誰かがはっきり言った-XGBoostアルゴリズム
    とくせい
    てきおう
    予測
    評価
    評価パラメータ
    Mean Absolute Error(MAE)絶対平均偏差
    式:error=actual−predictedはモジュールをロードする必要があります:
    from sklearn.metrics import mean_absolute_error
    

    補助評価
    データランダム分割
    目的:データを訓練データと検証データに分割し、パラメータ評価を使用してデータ(validation data)を検証し、関係のない特徴を排除する.モジュールをロードする必要があります:
    from sklearn.model_selection import train_test_split
    

    最適化
    オーバーフィット
    簡単な説明:フィットとは、トレーニングデータとモデルのマッチングの程度を指します.オーバーフィット指マッチングの程度が極めて高く、新しいデータ予測を使用する場合に理想的ではありません.不適合とは、モデルとトレーニングデータが一致しないことを意味します.検出:
  • 方法モデルパラメータを調整し、パラメータ評価を行う.評価結果が満足するまで繰り返します.