2017.07.27回顧ETとRT比較高級スライスargsort barplot(yerr=)xgb.plot_importance

1455 ワード

1、事務室に着いたら前日のまとめを書いた
2、昨日同僚をホワイトリストに入れるのを手伝って、channel rolling variableをついでに更新するしかなくて、運行は良好です
3、ExtraRandomizedTreesとrandomForestのドキュメントを見てみると、ランダム森林は戻されたサンプリングであり、サンプル数は元のサンプル数に等しく、特徴数はランダムにサブセットされ、結果回帰はaverage、分類用voting(ただしsklearnの実現はprobabilityに対するaverage)、ExtraRandomizedTreesは使用する全サンプルであり、デフォルトはサンプリングされず、特徴はサブセットである.彼の限界ランダムは各候補特徴に現れ,ランダムに分裂値を生成し,次いで最適な分化特徴を選択する.GBDTには2つのパラメータがあり、分散を低減してオーバーフィットを防止するために偏差を増加させることを目的として、サンプルサブセットと特徴サブセットを選択することができる.当時GBDTのサブツリーはCARTツリーを使用していましたが、分裂基準はGINIで、ランダム森林とETツリーはもう一度見なければなりません!
4、午後は会議だし、どうせ何の収穫もない
5、pythonはスライス方法がありますが、私は把握していません.まとめてみます.
  • a[:-1]逆list
  • a[:10:2]最初の10要素を取り、2つごとに
  • を取ります.
  • a[::5]5要素ごとに1つの
  • をとる
    6、numpyのargsort()は実は何度も見たことがありますが、なかなか覚えられません.彼はarray-like構造の要素の下のマークを並べ替えています.特に覚えておくべきところは
    下付きで並べ替え
    7、それから新しい同僚の任務の中でどのように1つの数が整数であることを判断することに関連して、2.0のこのような形式があるため、実際にはまだ整数で、もとはpython数字はすべて1つの内蔵方法があって、2.0.is_integer()
    8、阿三のセクハラEDAを写し取って、最後の2歩はETの木とXGBOOSTで1つのfeatureを出力しましたimportanceは、xgboostが直接出力する方法を提供しているので便利です.ETツリーは自分で絵を描いて何かを設定する必要があります.
    9、sns.barplotまたはplt.bar、あるパラメータyerrはy errorの略称で、yの偏差を描くことができて、またsns.barplotは確かにキックアスで、自動配色で、まるで騒々しいです.
    10、plt.xlim,xlimはx limitの略で、X軸の範囲を限定することができますが、実際にはあまり必要ありません.デフォルトautoscalingの結果と悪くないようです.
    11、xgb内建画変数の重要性
    fig, ax = plt.subplots(figsize=(12,12))
    #xgboost               axes  
    xgb.plot_importance(model, max_number_features=50, height=0.8, ax=ax)
    plt.show()