xgboost.XBClassifier分類アルゴリズムパラメータの詳細
1667 ワード
class
booster
gbtreeツリーモデルをベース分類器として(デフォルト)gbliner線形モデルをベース分類器とする
n_jobsパラレルスレッド数silent
Silent=0の場合、中間プロシージャ(デフォルト)は出力されません.
Silent=1の場合、中間プロセスが出力される.
nthread
nthread=-1の場合、すべてのCPUで並列演算(デフォルト)を行う.
nthread=1の場合、1つのCPUで演算します.
scale_pos_weight
正のサンプルの重み、2つの分類タスクでは、正負のサンプルの割合がアンバランスの場合、正のサンプルの重みを設定すると、モデルの効果がよりよくなります.例えば、正負のサンプルの割合が1:10の場合、scale_pos_weight=10.
n_estimatores
意味:合計反復回数、すなわち決定ツリーの個数パラメータ:
max_depth
意味:ツリーの深さ、デフォルト値は6、標準値は3-10です.
パラメータ変更:値が大きいほどフィットしやすくなります.値が小さいほど、フィットが欠けやすくなります.
min_child_weight
意味:デフォルトは1です.
パラメータ調整:値が大きいほど、フィットしにくくなります.値が小さいほどフィットしやすくなります(値が大きい場合は、モデルが局所的な特殊なサンプルを学習することを避けます).
subsample
意味:各木を訓練する際に使用されるデータがすべての訓練セットに占める割合.既定値は1、標準値は0.5-1です.
パラメータ調整:overfittingを防止します.
colsample_bytree
意味:各木を訓練する際、使用する特徴がすべての特徴に占める割合.既定値は1、標準値は0.5-1です.
パラメータ調整:overfittingを防止します.
learning_rate
意味:学習率は、反復ごとに重みを更新するステップ長を制御し、デフォルトは0.3です.
パラメータ:値が小さいほど、トレーニングが遅くなります.
標準値は0.01~0.2です.
gamma
ノード分割に必要な最小損失関数の降下値を指定するペナルティ係数.
パラメータ:
alpha
L 1正規化係数、デフォルトは1
lambda
L 2正規化係数、デフォルトは1
xgboost.
XGBClassifier
(max_depth=3, learning_rate=0.1, n_estimators=100, silent=True, objective='binary:logistic', booster='gbtree', n_jobs=1, nthread=None, gamma=0, min_child_weight=1, max_delta_step=0, subsample=1, colsample_bytree=1, colsample_bylevel=1, reg_alpha=0, reg_lambda=1, scale_pos_weight=1, base_score=0.5, random_state=0, seed=None, missing=None, **kwargs) booster
gbtreeツリーモデルをベース分類器として(デフォルト)gbliner線形モデルをベース分類器とする
n_jobsパラレルスレッド数silent
Silent=0の場合、中間プロシージャ(デフォルト)は出力されません.
Silent=1の場合、中間プロセスが出力される.
nthread
nthread=-1の場合、すべてのCPUで並列演算(デフォルト)を行う.
nthread=1の場合、1つのCPUで演算します.
scale_pos_weight
正のサンプルの重み、2つの分類タスクでは、正負のサンプルの割合がアンバランスの場合、正のサンプルの重みを設定すると、モデルの効果がよりよくなります.例えば、正負のサンプルの割合が1:10の場合、scale_pos_weight=10.
n_estimatores
意味:合計反復回数、すなわち決定ツリーの個数パラメータ:
max_depth
意味:ツリーの深さ、デフォルト値は6、標準値は3-10です.
パラメータ変更:値が大きいほどフィットしやすくなります.値が小さいほど、フィットが欠けやすくなります.
min_child_weight
意味:デフォルトは1です.
パラメータ調整:値が大きいほど、フィットしにくくなります.値が小さいほどフィットしやすくなります(値が大きい場合は、モデルが局所的な特殊なサンプルを学習することを避けます).
subsample
意味:各木を訓練する際に使用されるデータがすべての訓練セットに占める割合.既定値は1、標準値は0.5-1です.
パラメータ調整:overfittingを防止します.
colsample_bytree
意味:各木を訓練する際、使用する特徴がすべての特徴に占める割合.既定値は1、標準値は0.5-1です.
パラメータ調整:overfittingを防止します.
learning_rate
意味:学習率は、反復ごとに重みを更新するステップ長を制御し、デフォルトは0.3です.
パラメータ:値が小さいほど、トレーニングが遅くなります.
標準値は0.01~0.2です.
gamma
ノード分割に必要な最小損失関数の降下値を指定するペナルティ係数.
パラメータ:
alpha
L 1正規化係数、デフォルトは1
lambda
L 2正規化係数、デフォルトは1