关于特征选择的一些常用手段(其一)

阅读: 评论:0

关于特征选择的一些常用手段(其一)

关于特征选择的一些常用手段(其一)

关于特征选择的一些常用手段(其一)

撰写日期:2022年11月30日16:39:11 , 今天合肥气温-2°-0,TMD ᕙ(`▿´)ᕗ 真冷! —今天的风儿有些喧嚣

1. 信息增益

  • 定义:
    ,表现的事情的不确定性;越大越不确定。
    条件熵,表现的是在一个条件下,事情的不确定性;
    信息增益,为熵与条件熵的差,表现的是信息的不确定性减少的程度。越大,该条件越重要
  • 定义与公式:特征A对训练数据集 D D D的信息增益 g ( D , A ) g(D,A) g(D,A),定义为集合 D D D的信息熵 H ( D ) H(D) H(D)与特征 A A A给定条件下 D D D的信息条件熵 H ( D ∣ A ) H(D|A) H(D∣A)之差,即公式为:
    g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)
  • 信息熵计算公式: H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ l o g b P ( ∣ C k ∣ ∣ D ∣ ) H(D)=-sum_{k=1}^{K}frac{lvert C_krvert}{lvert Drvert}log_bP(frac{lvert C_krvert}{lvert Drvert}) H(D)=−∑k=1K​∣D∣∣Ck​∣​logb​P(∣D∣∣Ck​∣​)
  • 条件熵计算公式: H ( D ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) H(D)=-sum_{i=1}^{n}frac{lvert D_irvert}{lvert Drvert}H(D_i) H(D)=−∑i=1n​∣D∣∣Di​∣​H(Di​)
    注: C k C_k Ck​表示属于某个类别的样本数

例1

以年龄特征来计算:
1 、 g ( D , 年 龄 ) = H ( D ) − H ( D ∣ 年 龄 ) = 0.971 − [ 5 / 15 H ( 青 年 ) + 5 / 15 H ( 中 年 ) + 5 / 15 H ( 老 年 ] 1、g(D, 年龄) = H(D) -H(D|年龄) = 0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年] 1、g(D,年龄)=H(D)−H(D∣年龄)=0.971−[5/15H(青年)+5/15H(中年)+5/15H(老年]
2 、 H ( D ) = − ( 6 / 15 l o g ( 6 / 15 ) + 9 / 15 l o g ( 9 / 15 ) ) = 0.971 2、H(D) = -(6/15log(6/15)+9/15log(9/15))=0.971 2、H(D)=−(6/15log(6/15)+9/15log(9/15))=0.971
3 、 H ( 青 年 ) = − ( 3 / 5 l o g ( 3 / 5 ) + 2 / 5 l o g ( 2 / 5 ) ) 3、H(青年) = -(3/5log(3/5) +2/5log(2/5)) 3、H(青年)=−(3/5log(3/5)+2/5log(2/5))
H ( 中 年 ) = − ( 3 / 5 l o g ( 3 / 5 ) + 2 / 5 l o g ( 2 / 5 ) ) H(中年)=-(3/5log(3/5) +2/5log(2/5)) H(中年)=−(3/5log(3/5)+2/5log(2/5))
H ( 老 年 ) = − ( 4 / 5 o g ( 4 / 5 ) + 1 / 5 l o g ( 1 / 5 ) H(老年)=-(4/5og(4/5)+1/5log(1/5) H(老年)=−(4/5og(4/5)+1/5log(1/5)

接着我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D, A1) = 0.313, g(D, A2) = 0.324, g(D, A3) = 0.420,g(D, A4) = 0.363。所以我们选择A3 作为划分的第一个特征。这样我们就可以一棵树慢慢建立。

当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似,我们就不去举例计算。

方法描述
ID3 信息增益最大的准则
C4.5 信息增益比最大的准则
基尼系数最小的准则 在sklearn中可以选择划分的默认原则,优势:划分更加细致

例2

明天想出去郊游,所以要搞清楚明天下不下雨。假设明天下不下雨为事件A,事件A为不确定性事件,可求其熵。而我们再假设事件B为明天阴天,那么根据数学概率论知识, P ( A ∣ B ) P(A|B) P(A∣B) 代表着明天阴天的情况下下雨的概率,其为条件熵,且 P ( A ∣ B ) P(A|B) P(A∣B)为条件概率。

要知道,熵代表着的是事情的不确定性。根据我们的常识,直到要是阴天的话很大可能会下雨,所以该事件的不确定性很小,所以其所包含的信息量很少,即条件熵的值很小。而什么都不知道的去判断明天时候下雨,即事件A,其存在着太多的不确定性,所以其熵的值会很大,至少相比条件概率来说会大很多。

信息增益 = 熵-条件熵,其相减得到的值为信息量的变化,所以 P ( A ) − P ( A ∣ B ) P(A)-P(A|B) P(A)−P(A∣B)就是直到明天阴天后下雨的概率的变化。这个变化值很大,说明的是明天阴天这件事对于整个事件(事件A:下雨)充当着决定性的作用,即该事件(事件B:阴天)是非常非常重要的

参考:
相关介绍视频: =28&spm_id_from=pageDriver&vd_source=95b017b58d489bc85f79b312596e6b3c

本文发布于:2024-02-01 23:52:51,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170680971240100.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   手段   常用
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23