信息增益计算公式(SPSS中怎么计算某个属性的信息增益啊,本人新手,求大神给个具体的方法)
本文目录
SPSS中怎么计算某个属性的信息增益啊,本人新手,求大神给个具体的方法
粗略判断,你可以考虑用分类决策树模型来做决策树模型在以连续性变量为目标的时候,是一种特殊形式的回归模型,它可以给出其它信息对目标变量改变情况贡献程度的量化(标准化),还可以用建好的模型预测新样本的目标变量。(数学学到很深的程度以后,你就会知道,这些东西都是相通的)
如何用信息增益方法选择最佳划分点
文中所说的最佳划分点,是在统计学中很重要的“决策分类问题”。
首先一点,为什么要进行划分,因为划分方法就是建模的过程,为什么要建模?因为为了要预测。。。
(如果你明白建模的意义,下面一段可以忽略)
比如你出去约会一个女生,你不知道怎么样穿衣服才能约会成功。。现在你手中有1000个约会案例,每个人穿着什么样的衣服,裤子,颜色,鞋子款式,有没有帽子,这些“因素”都有记录,最终的结果就是约会成功与否,那么我们就可以构建一个数学模型,它的输入是“衣服,裤子,颜色,鞋子款式”,输出是约会成功与否。。。当这个模型建立成功,你输入你今天穿的衣服,就能知道今天约会会不会成功了。。。
ok
下面要讲解ID3算法。(如果您明白ID3或者类似的算法,可以忽略下面的)
我们先在脑子里想象,你现在是一个活动组织者,你如何根据天气判断明天的活动能不能开展呢。。。你不知道,没关系,旅游协会给你一张表
outlook temperature humidity windy --------------------------------------------------------- sunny hot high false N sunny hot high true N overcast hot high false P rain mild high false P rain cool normal false P rain cool normal true N overcast cool normal true P sunn y mild high false N sunny cool normal false P rain mild normal false P sunny mild normal true P overcast mild high true P overcast hot normal false P rain mild high true N
这张表列举了前几次活动中,天气(outlook),温度,湿度,有没有风(windy),对活动最终是否能成功举办的影响。。。我们的问题时,如何用这张表作为判断依据,当我得知天气数据时,就能对能否举办活动作出预测??
好,下面我们要介绍“信息熵”这个概念。
信息熵这个概念完全是数学家自己设计出来的。。。(香农:我不是数学家!!)
所以你不用太较真于公式。但是我先把公式给出来。
(来自百度百科)
其中pi是单个信号发生的概率。
“信息熵表示的含义,是一个信息的确定度,信息熵越高表示信息确定度越低,反之亦然”
(哈哈哈,我知道你已经懵B了。。)没关系,你把上面的话记住。我们来举例子解释。
例子,我们知道一打喷嚏,差不多就会感冒了。。。也就是说,打喷嚏和感冒这件事情是高度相关的。。。我们如何用一个量来衡量这种相关度的强弱呢? 答案就是,信息熵!!
假设10个打喷嚏的人里,10个都感冒,那么打喷嚏这个“信号”,所蕴含感冒这个“信息”的确定度是多少呢? 好,10个打喷嚏,10个感冒,那么概率是p=1,那么带入公式H=1*log(1)=0。
信息熵是0,表示打喷嚏和感冒之间的关系是非常确定的,不确定度是0!!
好了好了,我们回来计算吧!
计算步骤如下:
1.该活动无法进行的概率是:5/14 该活动可以进行的概率是:9/14 因此样本集合的信息熵是:-5/14log(5/14) - 9/14log(9/14) = 0.940
2. 接下来我们再看属性outlook信息熵的计算: outlook为sunny时, 该活动无法进行的概率是:3/5 该活动可以进行的概率是:2/5 因此sunny的信息熵是:-3/5log(3/5) - 2/5log(2/5) = 0.971
同理可以计算outlook属性取其他值时候的信息熵: outlook为overcast时的信息熵:0 outlook为rain时的信息熵:0.971 属性outlook的信息增益:gain(outlook) = 0.940 - (5/14*0.971 + 4/14*0 + 5/14*0.971) = 0.246
(这里你可能会问,为什么0.971前面要乘 5/14,这个5/14是,sunny出现的概率,因为我们的命题是,当sunny出现时,结果与sunny的不确定程度。。这是个条件概率,0.971也就是信息熵,表示结果与sunny的不确定程度,前面的5/14表示这个信息熵触发的概率。。如果还无法理解,请参阅《概率论》或者
4.最终的到的决策树如下
参考资料:
信息增益的定义
设离散随机变量的概率分布P和Q,它们的信息增益定义为其中分布P和Q必须是概率分布,而且对于任何P(i)》0,必须有Q(i)》0。当P(i)=0时,公式的值为0。从公式看,信息增益是以分布P为权重的P和Q对数差值的加权平均。信息增益的连续分布形式:其中p和q表示P和Q的密度概率函数更一般地,P和Q是集合X上的概率测度,Q关于P绝对连续,从P到Q的信息增益定义为假设右式存在,dQ/dp是Q关于P的Radon-Nikodym导数,如果P关于Q也绝对连续,那么上式可变为上式可视为P关于Q的熵。如果u是集合X上的任何测度,即有p=dP/du和q=dQ/du存在,那么从P到Q的信息增益可定义为当信息以比特为单位时,公式中的对数的基数为2。当信息以nats为单位时,基数为e。大多数包括信息增益公式的公式都使对数函数保持原样,即与基数无关。注意,信息增益是要讲方向的,上述公式都是计算从P到Q的信息增益。
信息增益到底怎么理解呢
信息增益(Kullback–Leibler divergence)又叫做information divergence,relative entropy 或者KLIC。
在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。
扩展资料:
信息增益相关延伸:增益
一般指对元器件、电路、设备或系统,其电流、电压或功率增加的程度,以分贝(dB)数来规定,即增益的单位一般是分贝(dB),是一个相对值。电子学上常使用对数单位量度增益,并以贝(bel)作为单位:
Gain = log10(P2/P1) bel
其中P1与P2分别为输入及输出的功率。
由于增益的数值通常都很大,因此一般都使用分贝(dB,贝的10分之1)来表示:
Gain = 10×log10(P2/P1) dB
这就是增益的绝对值与相对值分贝之间的关系。
参考资料来源:百度百科-增益
参考资料来源:百度百科-信息增益
数据挖掘常用算法有哪些
1、 朴素贝叶斯
朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型,如逻辑回归,所以只需要较少的训练数据即可。即使NB条件独立假设不成立,NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用,用mRMR中的R来讲,就是特征冗余。
2、逻辑回归(logistic regression)
逻辑回归是一个分类方法,属于判别式模型,有很多正则化模型的方法(L0,L1,L2),而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比,还会得到一个不错的概率解释,甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法online gradient descent)。如果需要一个概率架构(比如,简单地调节分类阈值,指明不确定性,或者是要获得置信区间),或者希望以后将更多的训练数据快速整合到模型中去,那么可以使用它。
3、 线性回归
线性回归是用于回归的,而不像Logistic回归是用于分类,其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化。
4、最近邻算法——KNN
KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;如何选择一个最佳的K值,这取决于数据。
5、决策树
决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。
6、SVM支持向量机
高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。
信息增益计算
ci表示类别i,t与 分别表示特征词的出现与不出现,Pr(ci)为文本中出现ci的概率;Pr(t)为特征出现在训练集中的概率;Pr(ci|t)表示当t出现在文本集中时,文本属于ci的概率;Pr(ci| )表示当t不出现在文本中时,文本属于ci的概率。
什么是信息增益
数据挖掘里面信息增益定义如下:先计算一下对于训练集T的熵:entropy(T)= Sigma(i=1,k)pi*log(2)pi Sigma:累加第1第k个属性 pi是当前这个属性出现的概率(=出现次数/总数)再用第二个公式计算曾益(对属性A): information gain(T,A)=entropy(T)-Sigma(i=1,m)|Ti|*entropy(Ti)/T (假设共m个属性)此定义适用于ID3 / C4.5
本文相关文章:

jqueryremoveattr(jquery中如何获取和设置属性)
2025年2月17日 18:40
更多文章:

沉默的羔羊原型(电影《沉默的羔羊》《华尔街》所使用的原型是 A.阿喀琉斯 B.康迪德 C.浮士德 D.俄耳浦斯)
2025年4月1日 23:40

打开这个网站你会感谢我的(我打开有些网页就会出现“此网站需要运行以下加载项如果您信任请点击这里”)
2025年2月21日 15:30

colormap(matlab中“colormap(map) map”为什么没被定义)
2025年3月14日 20:00

ipv6查询(如何查看自己的手机连接网络是不是IPv6协议)
2025年3月12日 08:50

mobile number是什么意思(mobile可以组成什么单词)
2025年3月6日 00:00

dreamweaver 教程(如何使用Dreamweaver方便快捷编辑网页标签_Dreamweaver教程)
2025年3月21日 23:50

radiobutton控件默认选中(winform怎么rediobutton被默认选中)
2025年3月12日 06:40

crossing field(刀剑神域2主题曲《crossing field》中文意思是什么)
2025年3月28日 01:50