2.2.1_Decision_Trees


[キーワード]

  • Decision tree
  • 配管使用
  • feature importance
  • [学習内容]

  • パイプラインの使用
    複数の前処理を接続することで、冗長コードを最小限に抑えることができます
  • from sklearn.pipeline import make_pipeline
  • 決定ツリーの概念とscikit-learningにおける応用
    from sklearn.tree import DecisionTreeClassifier
    
  • ツリーモデルのコスト関数と不一致
    ノードを分割する場合は、コスト関数を削減するために、分割の特性と分岐を見つける必要があります.
    Genie不純度とエントロピー~不純度が低いほど値が低くなる
    不純度:分割が良いほど値が低くなります
  • で作成されたツリーモデル
  • を確認します.
    import graphviz
    from sklearn.tree import export_graphviz
  • および決定ツリーにおける有効性の低減方法
    ツリーモデルの複雑さを低減し、オーバーフィットを低減
    プライマリスーパーパラメータ
    min samples split:各split結果の最小サンプル数を設定する
    min samples leaf:エンドノード(外部ノード)に少なくとも存在する必要があるサンプル数
    max depth:ブランチの深さを設定する