撰写日期:2022年11月30日16:39:11 , 今天合肥气温-2°-0,TMD ᕙ(`▿´)ᕗ 真冷! —今天的风儿有些喧嚣
以年龄特征来计算:
1 、 g ( D , 年 龄 ) = H ( D ) − H ( D ∣ 年 龄 ) = 0.971 − [ 5 / 15 H ( 青 年 ) + 5 / 15 H ( 中 年 ) + 5 / 15 H ( 老 年 ] 1、g(D, 年龄) = H(D) -H(D|年龄) = 0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年] 1、g(D,年龄)=H(D)−H(D∣年龄)=0.971−[5/15H(青年)+5/15H(中年)+5/15H(老年]
2 、 H ( D ) = − ( 6 / 15 l o g ( 6 / 15 ) + 9 / 15 l o g ( 9 / 15 ) ) = 0.971 2、H(D) = -(6/15log(6/15)+9/15log(9/15))=0.971 2、H(D)=−(6/15log(6/15)+9/15log(9/15))=0.971
3 、 H ( 青 年 ) = − ( 3 / 5 l o g ( 3 / 5 ) + 2 / 5 l o g ( 2 / 5 ) ) 3、H(青年) = -(3/5log(3/5) +2/5log(2/5)) 3、H(青年)=−(3/5log(3/5)+2/5log(2/5))
H ( 中 年 ) = − ( 3 / 5 l o g ( 3 / 5 ) + 2 / 5 l o g ( 2 / 5 ) ) H(中年)=-(3/5log(3/5) +2/5log(2/5)) H(中年)=−(3/5log(3/5)+2/5log(2/5))
H ( 老 年 ) = − ( 4 / 5 o g ( 4 / 5 ) + 1 / 5 l o g ( 1 / 5 ) H(老年)=-(4/5og(4/5)+1/5log(1/5) H(老年)=−(4/5og(4/5)+1/5log(1/5)
接着我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D, A1) = 0.313, g(D, A2) = 0.324, g(D, A3) = 0.420,g(D, A4) = 0.363。所以我们选择A3 作为划分的第一个特征。这样我们就可以一棵树慢慢建立。
当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似,我们就不去举例计算。
方法 | 描述 |
---|---|
ID3 信息增益 | 最大的准则 |
C4.5 信息增益比 | 最大的准则 |
基尼系数 | 最小的准则 在sklearn中可以选择划分的默认原则,优势:划分更加细致 |
明天想出去郊游,所以要搞清楚明天下不下雨。假设明天下不下雨为事件A,事件A为不确定性事件,可求其熵。而我们再假设事件B为明天阴天,那么根据数学概率论知识, P ( A ∣ B ) P(A|B) P(A∣B) 代表着明天阴天的情况下下雨的概率,其为条件熵,且 P ( A ∣ B ) P(A|B) P(A∣B)为条件概率。
要知道,熵代表着的是事情的不确定性。根据我们的常识,直到要是阴天的话很大可能会下雨,所以该事件的不确定性很小,所以其所包含的信息量很少,即条件熵的值很小。而什么都不知道的去判断明天时候下雨,即事件A,其存在着太多的不确定性,所以其熵的值会很大,至少相比条件概率来说会大很多。
而 信息增益 = 熵-条件熵,其相减得到的值为信息量的变化,所以 P ( A ) − P ( A ∣ B ) P(A)-P(A|B) P(A)−P(A∣B)就是直到明天阴天后下雨的概率的变化。这个变化值很大,说明的是明天阴天这件事对于整个事件(事件A:下雨)充当着决定性的作用,即该事件(事件B:阴天)是非常非常重要的
参考:
相关介绍视频: =28&spm_id_from=pageDriver&vd_source=95b017b58d489bc85f79b312596e6b3c
本文发布于:2024-02-01 23:52:51,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170680971240100.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |