New 1 - Data Science


1. QQ-plot(Quantile Quantile plot)


                              (완전한 정규분포를 이룰 때)
                              (skewed가 있을 떄)
  • データの一般性を理解するために使用されます.
  • 理論的には、データが正規性に従うと、分位数値をx軸、実データの分位数値をy軸と表す.
  • は、2つの異なるデータセットが同じ分布を有するかどうかを決定するために使用される.
  • であるが、通常、特定の分布に従うデータセットを決定するために1つのデータセットが使用される.
  • z−scoreはデータ距離の平均標準偏差の数倍を示した.
  • 2. Pandas.DataFrame.apply()


  • Call a function along an axis of the DataFrame.
  • 3. Pandas.DataFrame.transform()

  • Call a function on self producing a DataFrame with transformed values.
  • 4.apply()とtransform()の違い


    (写真の出所:https://towardsdatascience.com/difference-between-apply-and-transform-in-pandas-242e5cf32705)

    1. transform() work with function, a string function, a list of functions, and a dict. However, apply() is only allowed with function.




    2. transform() cannot produce aggregated results.



    3. apply() works with multiple Series at a time. But, transform() is only allowed to work with a single Series at a time.



    5. Pandas.DataFrame.astype()


    6. Sklearn.pipeline()



    7. cross_val_score()


  • Evaluate a score by cross-validation
  • 8. Key differences GBM vs XGBOOST



    Guide for XGBoost

    9. BaseEstimator, RegressorMixin, TransformerMixin


    1. BaseEstimator



    2. TransformerMixin



    3. RegressorMixin



    あるKaggle Notebookで次のようなクラスが見られました.
    複数のモデルを一度に学習し、予測平均値を返す機能があるようです.

    このレベルもあります.

    このように,平均modelsはrmsle cvという関数に入りcross val score()の推定因子として伝達される.