決定ツリーのHuritic関数(ing)


エントロピー
H(p,q)=−∑i=1pi∗log2(pi)H(p,q) = -\displaystyle\sum_{i=1}^{}p_i * log_2(p_i)H(p,q)=−i=1∑​pi​∗log2​(pi​)
  • は簡単に言えば不確実性です.
  • の値が大きいほど、役に立つ情報は少なくなります.
  • モデルが同じ確率しか持たないのに比べて,異なる確率値を持つほどエントロピーは小さくなる.
    確率が等しければ、何が起こるか予測するのはもっと難しい.Aは90%確率,1,10%確率,0,Bは50%確率,1および0であると仮定する.このとき,Aはさらに1が現れると推測でき,したがって不確実性は小さくなる.
  • クロスエントロピー
    H(p,q)=−∑i=1pi∗log2(qi)H(p,q) = -\displaystyle\sum_{i=1}^{}p_i * log_2(q_i)H(p,q)=−i=1∑​pi​∗log2​(qi​)

  • pとqの2つのケースがあるのでCross Engropypとqは実際の値と予測値を表す.

  • 予測値が実際の値のEntropyに近いほど正確であるといえる.

  • 基本的にはBinary Cross Entropyを使う姿が多く見られますが、これはCross Steropyと同じです.むだ口で書いたもの.ウィキペディア

  • loglossとも呼ばれます.クロスエントロピー値が大きいほどlogは小さくなる.したがって,クロスエントロピー値を小さくし,可能性を小さくする.結果は否定log likelionとも呼ばれる
  • 冷却-発光シート(Kullback-Libler Divergence)
    KLD는 두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 
    어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 
    샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다. 
    상대 엔트로피(relative entropy), 정보 획득량(information gain), 
    인포메이션 다이버전스(information divergence)라고도 한다. 
    정보이론에서는 상대 엔트로피, 기계학습의 결정 트리에서는 정보 획득량을 주로 사용한다. 
    쿨백-라이블러 발산은 비대칭으로, 두 값의 위치를 바꾸면 함수값도 달라진다. 
    따라서 이 함수는 거리 함수는 아니다. 
    
    [위키피디아]
  • 情報エントロピー差.前述のエントロピーを用いて,2つの分布の相違を理解した.
  • 数理統計学書の内容から、概念と証明を書きます.
  • 本の中の重点は何ですか.
  • 問題
  • の使用方法
  • データ分野でどのように応用しますか?
    https://engineer-mole.tistory.com/91
    https://hyunw.kim/blog/2017/10/27/KL_divergence.html
  • じょうほうりとく
    InformationGain=g(事前・事後)=Entropy(事後)−情報Gain=g(事前・事後)=Entropy(事後)−InformationGain=g(事前・事後)=Entropy(事後)=Entropy(事前・事後)=Entropy(事後)=Entropy(事後)=Entropy(事後)
  • 情報利得とは、従事前エントロピーから事後エントロピーを減算する値を指す.
  • の値が大きいほど、情報利得は大きくなる(=不確実性は小さくなる).
  • 死後ノードは詳細なサブノードと見なすことができる.
  • じょうほうりとくひ
  • Information Gainの欠点は、ノードの数が多い方がより良い場所と見なすことです.
  • は、これらの問題を解決するために比率概念を適用する.
    GR(D,A)=g(前後)/HA(D,A)=g(前後)/H A(D,A)=g(前後)/HA(D)
  • キニーけいすう

  • 不純度(不純物)の概念を用いる.これはエントロピーに似た概念である.

  • 決定ツリーは,不一致性を低減する方向に行われる.

  • その結果,(A:50%,B:50%)と比較して,(A:10%,B:90%)形態の不純度は低かった.
    Gini(D)=1−∑H[p(H∣D)]2Gini(D) = 1 -\displaystyle\sum_{H}[p(H|D)]^2Gini(D)=1−H∑​[p(H∣D)]2

  • (A:50%, B:50%) : Gini = 1 - [(0.5)^2 + (0.5)^2] = 1 - 0.5 = 0.5

  • (A:10%, B:90%) : Gini = 1 - [(0.1)^2 + (0.9)^2] = 1 - 0.82 = 0.18

  • クラスが集中すると,キニー係数がより低くなることが分かった.
  • Gini(D∣A)=1−∑i=1n∣Di∣∣D∣∗Gini(D)Gini(D|A) = 1 -\displaystyle\sum_{i=1}^n\frac{|D_i|}{|D|} * Gini(D)Gini(D∣A)=1−i=1∑n​∣D∣∣Di​∣​∗Gini(D)
  • バイナリツリー分割方法
  • の特徴Aの値に基づいて、それを2つに分けて、それぞれ左右のサブツリーに送信する.
  • |D|はサンプルセットの要素数
  • である.
    Reference
    データ科学者とデータエンジニア向けのインタビュークイズセット
    Information gain
    Kullback-Leibler divergence
    https://process-mining.tistory.com/106
    https://lucy-the-marketer.kr/ko/growth/decision-tree-and-impurity/
  • トナカイの記事を参考に
    入門情報理論ガイドライン-Entropyとは何ですか?SERIES 1/3
    情報論入門ガイド—Cross Engropy SearchビューSERIES 2/3