決定ツリーのHuritic関数(ing)
エントロピー
H(p,q)=−∑i=1pi∗log2(pi)H(p,q) = -\displaystyle\sum_{i=1}^{}p_i * log_2(p_i)H(p,q)=−i=1∑pi∗log2(pi)は簡単に言えば不確実性です. の値が大きいほど、役に立つ情報は少なくなります. モデルが同じ確率しか持たないのに比べて,異なる確率値を持つほどエントロピーは小さくなる.
確率が等しければ、何が起こるか予測するのはもっと難しい.Aは90%確率,1,10%確率,0,Bは50%確率,1および0であると仮定する.このとき,Aはさらに1が現れると推測でき,したがって不確実性は小さくなる. クロスエントロピー
H(p,q)=−∑i=1pi∗log2(qi)H(p,q) = -\displaystyle\sum_{i=1}^{}p_i * log_2(q_i)H(p,q)=−i=1∑pi∗log2(qi)
pとqの2つのケースがあるのでCross Engropypとqは実際の値と予測値を表す.
予測値が実際の値のEntropyに近いほど正確であるといえる.
基本的にはBinary Cross Entropyを使う姿が多く見られますが、これはCross Steropyと同じです.むだ口で書いたもの.ウィキペディア
loglossとも呼ばれます.クロスエントロピー値が大きいほどlogは小さくなる.したがって,クロスエントロピー値を小さくし,可能性を小さくする.結果は否定log likelionとも呼ばれる
冷却-発光シート(Kullback-Libler Divergence)情報エントロピー差.前述のエントロピーを用いて,2つの分布の相違を理解した. 数理統計学書の内容から、概念と証明を書きます. 本の中の重点は何ですか. 問題 の使用方法データ分野でどのように応用しますか?
https://engineer-mole.tistory.com/91
https://hyunw.kim/blog/2017/10/27/KL_divergence.html
じょうほうりとく
InformationGain=g(事前・事後)=Entropy(事後)−情報Gain=g(事前・事後)=Entropy(事後)−InformationGain=g(事前・事後)=Entropy(事後)=Entropy(事前・事後)=Entropy(事後)=Entropy(事後)=Entropy(事後)情報利得とは、従事前エントロピーから事後エントロピーを減算する値を指す. の値が大きいほど、情報利得は大きくなる(=不確実性は小さくなる). 死後ノードは詳細なサブノードと見なすことができる.
じょうほうりとくひ Information Gainの欠点は、ノードの数が多い方がより良い場所と見なすことです. は、これらの問題を解決するために比率概念を適用する.
GR(D,A)=g(前後)/HA(D,A)=g(前後)/H A(D,A)=g(前後)/HA(D) キニーけいすう
不純度(不純物)の概念を用いる.これはエントロピーに似た概念である.
決定ツリーは,不一致性を低減する方向に行われる.
その結果,(A:50%,B:50%)と比較して,(A:10%,B:90%)形態の不純度は低かった.
Gini(D)=1−∑H[p(H∣D)]2Gini(D) = 1 -\displaystyle\sum_{H}[p(H|D)]^2Gini(D)=1−H∑[p(H∣D)]2
(A:50%, B:50%) : Gini = 1 - [(0.5)^2 + (0.5)^2] = 1 - 0.5 = 0.5
(A:10%, B:90%) : Gini = 1 - [(0.1)^2 + (0.9)^2] = 1 - 0.82 = 0.18
クラスが集中すると,キニー係数がより低くなることが分かった.
Gini(D∣A)=1−∑i=1n∣Di∣∣D∣∗Gini(D)Gini(D|A) = 1 -\displaystyle\sum_{i=1}^n\frac{|D_i|}{|D|} * Gini(D)Gini(D∣A)=1−i=1∑n∣D∣∣Di∣∗Gini(D)バイナリツリー分割方法 の特徴Aの値に基づいて、それを2つに分けて、それぞれ左右のサブツリーに送信する. |D|はサンプルセットの要素数 である.
Reference
データ科学者とデータエンジニア向けのインタビュークイズセット
Information gain
Kullback-Leibler divergence
https://process-mining.tistory.com/106
https://lucy-the-marketer.kr/ko/growth/decision-tree-and-impurity/トナカイの記事を参考に
入門情報理論ガイドライン-Entropyとは何ですか?SERIES 1/3
情報論入門ガイド—Cross Engropy SearchビューSERIES 2/3
H(p,q)=−∑i=1pi∗log2(pi)H(p,q) = -\displaystyle\sum_{i=1}^{}p_i * log_2(p_i)H(p,q)=−i=1∑pi∗log2(pi)
確率が等しければ、何が起こるか予測するのはもっと難しい.Aは90%確率,1,10%確率,0,Bは50%確率,1および0であると仮定する.このとき,Aはさらに1が現れると推測でき,したがって不確実性は小さくなる.
H(p,q)=−∑i=1pi∗log2(qi)H(p,q) = -\displaystyle\sum_{i=1}^{}p_i * log_2(q_i)H(p,q)=−i=1∑pi∗log2(qi)
pとqの2つのケースがあるのでCross Engropypとqは実際の値と予測値を表す.
予測値が実際の値のEntropyに近いほど正確であるといえる.
基本的にはBinary Cross Entropyを使う姿が多く見られますが、これはCross Steropyと同じです.むだ口で書いたもの.ウィキペディア
loglossとも呼ばれます.クロスエントロピー値が大きいほどlogは小さくなる.したがって,クロスエントロピー値を小さくし,可能性を小さくする.結果は否定log likelionとも呼ばれる
KLD는 두 확률분포의 차이를 계산하는 데에 사용하는 함수로,
어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해
샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다.
상대 엔트로피(relative entropy), 정보 획득량(information gain),
인포메이션 다이버전스(information divergence)라고도 한다.
정보이론에서는 상대 엔트로피, 기계학습의 결정 트리에서는 정보 획득량을 주로 사용한다.
쿨백-라이블러 발산은 비대칭으로, 두 값의 위치를 바꾸면 함수값도 달라진다.
따라서 이 함수는 거리 함수는 아니다.
[위키피디아]
https://engineer-mole.tistory.com/91
https://hyunw.kim/blog/2017/10/27/KL_divergence.html
InformationGain=g(事前・事後)=Entropy(事後)−情報Gain=g(事前・事後)=Entropy(事後)−InformationGain=g(事前・事後)=Entropy(事後)=Entropy(事前・事後)=Entropy(事後)=Entropy(事後)=Entropy(事後)
GR(D,A)=g(前後)/HA(D,A)=g(前後)/H A(D,A)=g(前後)/HA(D)
不純度(不純物)の概念を用いる.これはエントロピーに似た概念である.
決定ツリーは,不一致性を低減する方向に行われる.
その結果,(A:50%,B:50%)と比較して,(A:10%,B:90%)形態の不純度は低かった.
Gini(D)=1−∑H[p(H∣D)]2Gini(D) = 1 -\displaystyle\sum_{H}[p(H|D)]^2Gini(D)=1−H∑[p(H∣D)]2
(A:50%, B:50%) : Gini = 1 - [(0.5)^2 + (0.5)^2] = 1 - 0.5 = 0.5
(A:10%, B:90%) : Gini = 1 - [(0.1)^2 + (0.9)^2] = 1 - 0.82 = 0.18
クラスが集中すると,キニー係数がより低くなることが分かった.
Reference
データ科学者とデータエンジニア向けのインタビュークイズセット
Information gain
Kullback-Leibler divergence
https://process-mining.tistory.com/106
https://lucy-the-marketer.kr/ko/growth/decision-tree-and-impurity/
入門情報理論ガイドライン-Entropyとは何ですか?SERIES 1/3
情報論入門ガイド—Cross Engropy SearchビューSERIES 2/3
Reference
この問題について(決定ツリーのHuritic関数(ing)), 我々は、より多くの情報をここで見つけました https://velog.io/@studyfirston/의사결정-트리에서의-휴리스틱-함수テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol