信息增益计算公式(SPSS中怎么计算某个属性的信息增益啊,本人新手,求大神给个具体的方法)

2025-03-08 09:50:03 0

信息增益计算公式(SPSS中怎么计算某个属性的信息增益啊,本人新手,求大神给个具体的方法)

本文目录

SPSS中怎么计算某个属性的信息增益啊,本人新手,求大神给个具体的方法

粗略判断,你可以考虑用分类决策树模型来做决策树模型在以连续性变量为目标的时候,是一种特殊形式的回归模型,它可以给出其它信息对目标变量改变情况贡献程度的量化(标准化),还可以用建好的模型预测新样本的目标变量。(数学学到很深的程度以后,你就会知道,这些东西都是相通的)

如何用信息增益方法选择最佳划分点

文中所说的最佳划分点,是在统计学中很重要的“决策分类问题”。

首先一点,为什么要进行划分,因为划分方法就是建模的过程,为什么要建模?因为为了要预测。。。

(如果你明白建模的意义,下面一段可以忽略)

比如你出去约会一个女生,你不知道怎么样穿衣服才能约会成功。。现在你手中有1000个约会案例,每个人穿着什么样的衣服,裤子,颜色,鞋子款式,有没有帽子,这些“因素”都有记录,最终的结果就是约会成功与否,那么我们就可以构建一个数学模型,它的输入是“衣服,裤子,颜色,鞋子款式”,输出是约会成功与否。。。当这个模型建立成功,你输入你今天穿的衣服,就能知道今天约会会不会成功了。。。

ok

下面要讲解ID3算法。(如果您明白ID3或者类似的算法,可以忽略下面的)

我们先在脑子里想象,你现在是一个活动组织者,你如何根据天气判断明天的活动能不能开展呢。。。你不知道,没关系,旅游协会给你一张表

  outlook    temperature    humidity    windy   ---------------------------------------------------------    sunny       hot             high           false       N    sunny       hot             high           true         N    overcast   hot             high           false       P    rain           mild           high           false       P    rain           cool           normal      false       P    rain           cool           normal      true         N    overcast   cool           normal      true         P    sunn y      mild           high           false       N    sunny       cool           normal      false       P    rain           mild           normal      false       P     sunny       mild           normal      true         P     overcast   mild           high           true         P     overcast   hot             normal      false       P     rain           mild           high           true        N

这张表列举了前几次活动中,天气(outlook),温度,湿度,有没有风(windy),对活动最终是否能成功举办的影响。。。我们的问题时,如何用这张表作为判断依据,当我得知天气数据时,就能对能否举办活动作出预测??

好,下面我们要介绍“信息熵”这个概念。

信息熵这个概念完全是数学家自己设计出来的。。。(香农:我不是数学家!!)

所以你不用太较真于公式。但是我先把公式给出来。

(来自百度百科)

其中pi是单个信号发生的概率。

  • “信息熵表示的含义,是一个信息的确定度,信息熵越高表示信息确定度越低,反之亦然”

(哈哈哈,我知道你已经懵B了。。)没关系,你把上面的话记住。我们来举例子解释。

例子,我们知道一打喷嚏,差不多就会感冒了。。。也就是说,打喷嚏和感冒这件事情是高度相关的。。。我们如何用一个量来衡量这种相关度的强弱呢?  答案就是,信息熵!!

假设10个打喷嚏的人里,10个都感冒,那么打喷嚏这个“信号”,所蕴含感冒这个“信息”的确定度是多少呢? 好,10个打喷嚏,10个感冒,那么概率是p=1,那么带入公式H=1*log(1)=0。

信息熵是0,表示打喷嚏和感冒之间的关系是非常确定的,不确定度是0!!

好了好了,我们回来计算吧!

计算步骤如下:

 1.该活动无法进行的概率是:5/14    该活动可以进行的概率是:9/14    因此样本集合的信息熵是:-5/14log(5/14) - 9/14log(9/14) = 0.940

2. 接下来我们再看属性outlook信息熵的计算:    outlook为sunny时,    该活动无法进行的概率是:3/5    该活动可以进行的概率是:2/5    因此sunny的信息熵是:-3/5log(3/5) - 2/5log(2/5) = 0.971

   同理可以计算outlook属性取其他值时候的信息熵:    outlook为overcast时的信息熵:0    outlook为rain时的信息熵:0.971    属性outlook的信息增益:gain(outlook) = 0.940 - (5/14*0.971 + 4/14*0 + 5/14*0.971) = 0.246

(这里你可能会问,为什么0.971前面要乘 5/14,这个5/14是,sunny出现的概率,因为我们的命题是,当sunny出现时,结果与sunny的不确定程度。。这是个条件概率,0.971也就是信息熵,表示结果与sunny的不确定程度,前面的5/14表示这个信息熵触发的概率。。如果还无法理解,请参阅《概率论》或者  

4.最终的到的决策树如下

参考资料:

  1. 信息增益的定义

    设离散随机变量的概率分布P和Q,它们的信息增益定义为其中分布P和Q必须是概率分布,而且对于任何P(i)》0,必须有Q(i)》0。当P(i)=0时,公式的值为0。从公式看,信息增益是以分布P为权重的P和Q对数差值的加权平均。信息增益的连续分布形式:其中p和q表示P和Q的密度概率函数更一般地,P和Q是集合X上的概率测度,Q关于P绝对连续,从P到Q的信息增益定义为假设右式存在,dQ/dp是Q关于P的Radon-Nikodym导数,如果P关于Q也绝对连续,那么上式可变为上式可视为P关于Q的熵。如果u是集合X上的任何测度,即有p=dP/du和q=dQ/du存在,那么从P到Q的信息增益可定义为当信息以比特为单位时,公式中的对数的基数为2。当信息以nats为单位时,基数为e。大多数包括信息增益公式的公式都使对数函数保持原样,即与基数无关。注意,信息增益是要讲方向的,上述公式都是计算从P到Q的信息增益。

    信息增益到底怎么理解呢

    信息增益(Kullback–Leibler divergence)又叫做information divergence,relative entropy 或者KLIC。

    在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。

    扩展资料:

    信息增益相关延伸:增益

    一般指对元器件、电路、设备或系统,其电流、电压或功率增加的程度,以分贝(dB)数来规定,即增益的单位一般是分贝(dB),是一个相对值。电子学上常使用对数单位量度增益,并以贝(bel)作为单位:

    Gain = log10(P2/P1) bel

    其中P1与P2分别为输入及输出的功率。

    由于增益的数值通常都很大,因此一般都使用分贝(dB,贝的10分之1)来表示:

    Gain = 10×log10(P2/P1) dB

    这就是增益的绝对值与相对值分贝之间的关系。

    参考资料来源:百度百科-增益

    参考资料来源:百度百科-信息增益

    数据挖掘常用算法有哪些

    1、 朴素贝叶斯

    朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型,如逻辑回归,所以只需要较少的训练数据即可。即使NB条件独立假设不成立,NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用,用mRMR中的R来讲,就是特征冗余。

    2、逻辑回归(logistic regression)

    逻辑回归是一个分类方法,属于判别式模型,有很多正则化模型的方法(L0,L1,L2),而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比,还会得到一个不错的概率解释,甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法online gradient descent)。如果需要一个概率架构(比如,简单地调节分类阈值,指明不确定性,或者是要获得置信区间),或者希望以后将更多的训练数据快速整合到模型中去,那么可以使用它。

    3、 线性回归

    线性回归是用于回归的,而不像Logistic回归是用于分类,其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化。

    4、最近邻算法——KNN

    KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;如何选择一个最佳的K值,这取决于数据。

    5、决策树

    决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。

    6、SVM支持向量机

    高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。

    信息增益计算

    ci表示类别i,t与 分别表示特征词的出现与不出现,Pr(ci)为文本中出现ci的概率;Pr(t)为特征出现在训练集中的概率;Pr(ci|t)表示当t出现在文本集中时,文本属于ci的概率;Pr(ci| )表示当t不出现在文本中时,文本属于ci的概率。

    什么是信息增益

    数据挖掘里面信息增益定义如下:先计算一下对于训练集T的熵:entropy(T)= Sigma(i=1,k)pi*log(2)pi Sigma:累加第1第k个属性 pi是当前这个属性出现的概率(=出现次数/总数)再用第二个公式计算曾益(对属性A): information gain(T,A)=entropy(T)-Sigma(i=1,m)|Ti|*entropy(Ti)/T (假设共m个属性)此定义适用于ID3 / C4.5

信息增益计算公式(SPSS中怎么计算某个属性的信息增益啊,本人新手,求大神给个具体的方法)

本文编辑:admin

本文相关文章:


lombok(用lombok生成的属性可以copy吗)

lombok(用lombok生成的属性可以copy吗)

本文目录用lombok生成的属性可以copy吗lombok怎样应用于项目中,因为应用于eclipse中需要配置,如果我打包发布lombok还会起作用吗用lombok生成的属性可以copy吗用lombok生成的属性可以copy加入要测的类叫X

2025年4月1日 23:50

system getproperty(请问大家:在java中System.getProperties()获取的属性信息都是获取的具体哪个配置文件里的信息)

system getproperty(请问大家:在java中System.getProperties()获取的属性信息都是获取的具体哪个配置文件里的信息)

本文目录请问大家:在java中System.getProperties()获取的属性信息都是获取的具体哪个配置文件里的信息linux中不能system.getproperty么java 中System.getProperty( dic.di

2025年3月24日 08:10

border属性设置(border属性有几种)

border属性设置(border属性有几种)

本文目录border属性有几种css3宽度100%怎么设置border的属性常用border的四个属性设置的顺序是什么border属性有几种boeder边框设置:边框样式:border-style: ;边框颜色:border-color:

2025年2月19日 11:10

jqueryremoveattr(jquery中如何获取和设置属性)

jqueryremoveattr(jquery中如何获取和设置属性)

本文目录jquery中如何获取和设置属性js/jquery怎么移除已添加的属性jquery中如何获取和设置属性1、jquery中用attr()方法来获取和设置元素属性,attr是attribute(属性)的缩写,在jQuery DOM操作中

2025年2月17日 18:40

Div有什么属性?different怎么读

Div有什么属性?different怎么读

本文目录Div有什么属性different怎么读css设置div整体居中Div有什么属性Div的一些基本属性left 相对于窗口左边的位置 top 相对于窗口上边的位置 width DIV tag 的宽度。所有在 DIV 里的文字或html

2025年2月16日 13:30

更多文章:


网上课程哪个平台比较好(现在哪一个网络教育平台最好)

网上课程哪个平台比较好(现在哪一个网络教育平台最好)

本文目录现在哪一个网络教育平台最好我想在网上教学,哪个网上教学平台好小学网课平台哪个好学而思、新东方、猿辅导、天天练、小学宝、纳米盒子线上授课平台选哪个比较好网课哪个平台比较好现在哪一个网络教育平台最好网上教育平台好的标准:一、师资力量;二

2025年2月21日 04:30

沉默的羔羊原型(电影《沉默的羔羊》《华尔街》所使用的原型是 A.阿喀琉斯 B.康迪德 C.浮士德 D.俄耳浦斯)

沉默的羔羊原型(电影《沉默的羔羊》《华尔街》所使用的原型是 A.阿喀琉斯 B.康迪德 C.浮士德 D.俄耳浦斯)

本文目录电影《沉默的羔羊》《华尔街》所使用的原型是 A.阿喀琉斯 B.康迪德 C.浮士德 D.俄耳浦斯沉默的羔羊里面的事情是真实的么这些人物都存在么原型都是谁有没有独特的分析 ,不要在网上转载!沉默的羔羊的原型——泰德·邦迪,你怎么看呢电影

2025年4月1日 23:40

打开这个网站你会感谢我的(我打开有些网页就会出现“此网站需要运行以下加载项如果您信任请点击这里”)

打开这个网站你会感谢我的(我打开有些网页就会出现“此网站需要运行以下加载项如果您信任请点击这里”)

本文目录我打开有些网页就会出现“此网站需要运行以下加载项如果您信任请点击这里”为什么我在美国上中国网页打不开谁帮我解决一下 我非常感谢啊为什么我的电脑主页打不开 其他的网站都能开,QQ也能上 如果您能回答我会很感激谁可以帮我把这个网站的加密

2025年2月21日 15:30

java编程如何入门(新手如何学好java编程)

java编程如何入门(新手如何学好java编程)

本文目录新手如何学好java编程java初学者,应该如何学习java呢新手如何学好java编程首先初学者学习Java,应该从最基础的开始 :但是在学习的时候不要图快,要系统的学习一下,或者在了解Java这一门语言是干什么,有什么作用之后,在

2025年3月23日 00:10

colormap(matlab中“colormap(map) map”为什么没被定义)

colormap(matlab中“colormap(map) map”为什么没被定义)

本文目录matlab中“colormap(map) map”为什么没被定义MATLAB中colormap(gray)什么意思 dirac函数怎么用matlab中“colormap(map) map”为什么没被定义1、colormap函数:获

2025年3月14日 20:00

teenagers怎么读(teenager怎么读)

teenagers怎么读(teenager怎么读)

本文目录teenager怎么读teenagers’ 复数的所有格 读音是怎样的父母的英语单词怎么读句中的“Teenagers”什么意思,怎么读teenager怎么读teenager: n. 13岁到19岁的年轻人例句与用法: 1. It

2025年4月2日 21:40

energy什么意思中文(energy什么意思)

energy什么意思中文(energy什么意思)

本文目录energy什么意思energy是什么意思作为形容词energy是什么意思energy什么意思energy意思是精力。一、含义n. 精力;活力;能源。 二、用法energy的基本意思是“活力”“干劲”“能力”,多用作不可数名词,在指

2025年2月22日 02:40

linux命令行界面(linux为什么开机就是命令行界面)

linux命令行界面(linux为什么开机就是命令行界面)

本文目录linux为什么开机就是命令行界面Linux 中进入命令行界面有哪些方式linux怎么切换到命令行界面linux如何退出命令操作界面在linux中,命令界面转换成操作界面linux为什么开机就是命令行界面那是因为你没有安装图形界面再

2025年2月23日 07:30

什么是“网络钓鱼”?网络钓鱼、钓鱼网站是什么意思啊

什么是“网络钓鱼”?网络钓鱼、钓鱼网站是什么意思啊

本文目录什么是“网络钓鱼”网络钓鱼、钓鱼网站是什么意思啊网络钓鱼是什么什么是“网络钓鱼”网络钓鱼(Phishing‎,与钓鱼的英语fishing‎发音相近,又名钓鱼法或钓鱼式攻击)是通过大量发送声称来自于银行或其他知名机构的欺骗性垃圾邮件,

2025年2月20日 05:30

sqlyog(sqlyog怎么导出sql文件)

sqlyog(sqlyog怎么导出sql文件)

本文目录sqlyog怎么导出sql文件如何用sqlyog修改mysql数据库的密码sqlyog中怎么导入sql文件sqlyog错误代码1045求一份sqlyog中文破解版sqlyog可以对数据库进行哪些操作sqlyog怎么导出sql文件【打

2025年2月13日 01:10

ipv6查询(如何查看自己的手机连接网络是不是IPv6协议)

ipv6查询(如何查看自己的手机连接网络是不是IPv6协议)

本文目录如何查看自己的手机连接网络是不是IPv6协议怎样查到某网址对应的IPv6地址怎么看ipv6 地址如何查询手机是否支持ipv6如何查询一个域名的IPV6地址路由器的IPV6地址苹果手机怎么看ipv6地址如何查看自己的手机连接网络是不是

2025年3月12日 08:50

mobile number是什么意思(mobile可以组成什么单词)

mobile number是什么意思(mobile可以组成什么单词)

本文目录mobile可以组成什么单词mobile number是什么意思cell phone number和mobile phone number有区别吗mobile可以组成什么单词mobile组成的单词是mobile.mobile单词发音

2025年3月6日 00:00

dreamweaver 教程(如何使用Dreamweaver方便快捷编辑网页标签_Dreamweaver教程)

dreamweaver 教程(如何使用Dreamweaver方便快捷编辑网页标签_Dreamweaver教程)

本文目录如何使用Dreamweaver方便快捷编辑网页标签_Dreamweaver教程怎么用dreamweaverDreamweaver网页制作教程的介绍dreamweaver 怎么用如何使用Dreamweaver方便快捷编辑网页标签_Dr

2025年3月21日 23:50

一次函数练习题(初二孩子一次函数总是容易出错,是什么原因)

一次函数练习题(初二孩子一次函数总是容易出错,是什么原因)

本文目录初二孩子一次函数总是容易出错,是什么原因一次函数有什么解答技巧初二孩子一次函数总是容易出错,是什么原因感觉函数题挺简单的,画图象一般是列表,描点,连线函数有X,Y坐标轴,有4个象限XY都为正是第一象限X负Y正为第二象限XY都为负是第

2025年2月15日 01:20

radiobutton控件默认选中(winform怎么rediobutton被默认选中)

radiobutton控件默认选中(winform怎么rediobutton被默认选中)

本文目录winform怎么rediobutton被默认选中MFC radio button如何默认选中jsp radiobutton 默认选中第一个怎样设置radiobutton的默认值winform怎么rediobutton被默认选中假设

2025年3月12日 06:40

sql怎么删除索引(sql如何建立降序索引 和删除索引)

sql怎么删除索引(sql如何建立降序索引 和删除索引)

本文目录sql如何建立降序索引 和删除索引如何通过SQL创建删除表的索引删除excel中的sql索引怎么在数据库中删除已经添加的某个索引Sqlserver2008删除索引问题删除索引的sql语句是(sql如何建立降序索引 和删除索引建立降序

2025年4月4日 19:30

防火墙的作用包括(防火墙的主要作用是)

防火墙的作用包括(防火墙的主要作用是)

本文目录防火墙的主要作用是防火墙的主要功能是什么防火墙的主要功能和几种类型防火墙的主要作用是防火墙的主要功能有:(1)网络安全的屏障防火墙可通过过滤不安全的服务而减低风险,极大地提高内部网络的安全性。由于只有经过选择并授权允许的应用协议才能

2025年3月30日 03:20

js string(在js中string 怎么转换)

js string(在js中string 怎么转换)

本文目录在js中string 怎么转换怎样给js中的string方法再创建一个方法在JS中String 和string什么区别JS中String类型转换Date类型JS中的String字符串类型是基础数据类型吗js怎么判断一个对象是 str

2025年4月3日 05:50

crossing field(刀剑神域2主题曲《crossing field》中文意思是什么)

crossing field(刀剑神域2主题曲《crossing field》中文意思是什么)

本文目录刀剑神域2主题曲《crossing field》中文意思是什么求刀剑神域OP【crossing field】的罗马音歌词刀剑神域2主题曲《crossing field》中文意思是什么现在就毫不迷惘的迷わずに今在这充满矛盾的世界矛盾だ

2025年3月28日 01:50

php培训费用(达内培训java学费多少)

php培训费用(达内培训java学费多少)

本文目录达内培训java学费多少去外面的计算机培训公司培训三个月能不能学会php达内培训java学费多少达内所谓的平安就业险其实就是交钱学习后,跟项目经理关系好,就可以推荐到达内就业。而里面的项目经理其实很多都是这样在达内培训后留下来的学员

2025年3月7日 01:00

近期文章

lender(你怎么看比特币)
2025-04-05 12:50:02
upload(upload的意思)
2025-04-05 11:40:02
本站热文

harbor,port,pier的区别?谁能解释“harbour“(港口)与“pier“(码头)的区别
2025-02-22 17:40:03 浏览:18
ibatis foreach(ibatis 批量update操作)
2025-02-10 23:40:06 浏览:7
endless rain(endless rain表达什么情感)
2025-02-14 06:00:02 浏览:6
标签列表

热门搜索