理解信息增益

阅读: 评论:0

理解信息增益

理解信息增益

信息量

对等概率事件结果的可能性数量取以2为底的对数刚好是传递时间结果所需要的信息量(结合二进制)
等可能事件数
1 P k frac{1}{P_k} Pk​1​可用于刻画事件发生的第K种可能所对应的等可能事件数量。
某事件结果AA的发生概率是0.2,那么实际上可以将其理解为,在5个等概率事件中A所发生的概率。
等可能事件越多所传输的信息量就越大

信息熵

"信息熵"是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,…,y)则信息熵的定义为
E n t ( D ) = ∑ k = 1 ∣ y ∣ p k l o g 2 1 p k = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent(D)=sum_{k=1}^{left | y right |} p_klog_2frac{1}{p_k}=-sum_{k=1}^{left | y right |} p_klog_2p_k Ent(D)=∑k=1∣y∣​pk​log2​pk​1​=−∑k=1∣y∣​pk​log2​pk​
其中, 1 p k frac{1}{p_k} pk​1​表示每个概率所对应的等可能事件数
信息熵还可以理解为信息量的期望

信息增益

信息增益=信息熵-条件熵

条件熵

H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x ) H(Y mid X)=sum_{x in X} p(x) H(Y mid X=x) H(Y∣X)=∑x∈X​p(x)H(Y∣X=x)
也可以表示为
Ent ⁡ ( D ∣ D v ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ Ent ⁡ ( D v ) operatorname{Ent}left(D mid D^{v}right)=sum_{v=1}^{V} frac{left|D^{v}right|}{|D|} operatorname{Ent}left(D^{v}right) Ent(D∣Dv)=∑v=1V​∣D∣∣Dv∣​Ent(Dv)
假定离散属性 a(西瓜的色泽)有V 个可能的取值{} (比如 {青绿,乌黑,浅白,墨绿 … })等等吧 ,如果使用a 来对样本集D(西瓜) 进行划分 ,则会产生 V 个分支节点,其中第v 个分支节点包含了D 中所有在属性a上的取值为 的样本 ,记作

信息增益

根据信息熵的计算公式, 我们可以计算出的信息熵 ,再考虑到不同的分支节点所包含的样本数不同,给分支节点赋予权重 ,也就是样本数越多的分支节点影响越大,于是可以计算出用 a 属性对样本D进行划分所获得的"信息增益"(information gain)
G a i n ( D , a ) = E n t ( D ) − E n t ( D ∣ D v ) Gain(D,a)=Ent(D)-Ent(Dmid D^v) Gain(D,a)=Ent(D)−Ent(D∣Dv)
代入
G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) Gain(D,a)=Ent(D)-sum_{v=1}^{V}frac{mid D^vmid}{mid D mid}Ent(D^v) Gain(D,a)=Ent(D)−∑v=1V​∣D∣∣Dv∣​Ent(Dv)
一般来说, 信息增益越大,则意味着使用属性a进行划分所获得的"纯度提升"越大 .因此可以用信息增益来进行决策树的划分属性选择.

增益率

事实上用信息增益准则对可取值数目较多的属性有所偏好,为了减少这种偏好可能带来的不利影响,我们会使用 “增益率” ,来选择最优划分属性 , 增益率定义为 :
G a i n r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) I V ( a ) = − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ l o g 2 ∣ D v ∣ ∣ D ∣ Gain ratio(D,a)=frac{Gain(D,a)}{IV(a)} \ IV(a)=-sum_{v=1}^{V}frac{mid D^vmid}{mid Dmid}log_2frac{mid D^vmid}{mid Dmid } Gain ratio(D,a)=IV(a)Gain(D,a)​IV(a)=−∑v=1V​∣D∣∣Dv∣​log2​∣D∣∣Dv∣​
称为属性 a 的"固有值" ,属性a 取值数目越多(V越大) ,则 IV(a) 的值通常越大

使用注意:
增益率准则对可取值数目较少的属性有所偏好,信息增益对可取值数目多的属性有所偏好
一般来说,划分属性时找出信息增益高于平均水平的属性,再从中选择增益率最高的

【如何理解信息熵】 /?share_source=copy_web&vd_source=e8cb070c1a0913c51d12105ca3b9d153
参考书:西瓜书周志华

本文发布于:2024-02-03 01:09:10,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170689376347656.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:增益   信息
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23