信息熵

作者:忆臻
链接:https://www.zhihu.com/question/22178202/answer/161732605
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

信息熵的公式

先抛出信息熵公式如下:

其中 代表随机事件X为 的概率,下面来逐步介绍信息熵的公式来源!

信息量

信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?

多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如湖南产生的地震了;越大概率的事情发生了产生的信息量越小,如太阳从东边升起来了(肯定发生嘛,没什么信息量)。这很好理解!

例子

脑补一下我们日常的对话:

师兄走过来跟我说,立波啊,今天你们湖南发生大地震了。

我:啊,不可能吧,这么重量级的新闻!湖南多低的概率发生地震啊!师兄,你告诉我的这件事,信息量巨大,我马上打电话问问父母什么情况。

又来了一个师妹:立波师兄,我发现了一个重要情报额,原来德川师兄有女朋友额~德川比师妹早进一年实验室,全实验室同学都知道了这件事。我大笑一声:哈哈哈哈,这件事大家都知道了,一点含金量都没有,下次八卦一些其它有价值的新闻吧!orz,逃~

因此一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。

但是这个表示信息量函数的形式怎么找呢?

随着概率增大而减少的函数形式太多了!不要着急,我们还有下面这条性质

如果我们有俩个不相关的事件x和y,那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和,即:

h(x,y) = h(x) + h(y)

由于x,y是俩个不相关的事件,那么满足p(x,y) = p(x)*p(y).

根据上面推导,我们很容易看出h(x)一定与p(x)的对数有关(因为只有对数形式的真数相乘之后,能够对应对数的相加形式,可以试试)。因此我们有信息量公式如下:

下面解决俩个疑问?

(1)为什么有一个负号

其中,负号是为了确保信息一定是正数或者是0,总不能为负数吧!

(2)为什么底数为2

这是因为,我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底!

信息熵

下面我们正式引出信息熵。

信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即

转换一下为:

最终我们的公式来源推导完成了。

这里我再说一个对信息熵的理解。信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。

如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。

时间: 08-18

信息熵的相关文章

信息熵公式的由来(转)

作者:忆臻链接:https://www.zhihu.com/question/22178202/answer/161732605来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 首先我们要区分信息量和信息熵的区别. 下面根据我的理解一步一步引出信息熵及其公式的来源: 信息熵的公式 先抛出信息熵公式如下: 其中 代表随机事件X为 的概率,下面来逐步介绍信息熵的公式来源! 信息量 信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们

信息熵的直观理解

在机器学习算法(如二叉树).特征选择(互信息)中经常用到熵的概念,信息熵的概念以及介绍网上有很多,这里主要做一个直观的介绍. 1. 信息的度量 2. 信息熵 一. 信息量 常常把消息中有意义的内容成为信息.我们常常说,某人说的某句话信息量很大,具体在信息论中,其实指的是他说的这句话消除的不确定性多.信息的度量定义为消除不确定性的多少.(信息是用来消除不确定性的东西--Shannon) 信息量函数: $I=-\ln p_{i}$ 其中,$p_{i}$是事件$x_{i}$发生的概率($x_{i} \

基于信息熵的无字典分词算法

这几天在研究如何用统计方法来发现新词,扩充自己的词典.看到了几篇很有想法的文章,作者阐述了一下思路.文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明.结合作者的思路,我进行了如下数学模型的构建和算法的实现. 一.概念介绍 1.词语分片 设一个文档集 .其中,为一个文本,. 设 为文档的分片集合.其中,为文档的一个词语分片,分片就是按step步长对文档进行分割的词语单位.这里说的词语分片可以是一个字.一个词或者一个长词. 譬如:中国队, 按st

信息熵(Entropy)究竟是用来衡量什么的?

——与Philip ZHANG商榷 思明 Philip ZHANG先生在反驳彭小明的时候,提出一个观点,他说:“ 就语言文 字来说,总体效率不是用民族主义来衡量的,而是用信息熵(Entropy)来衡量 的.” 张先生介绍说: 计算文字效率的基本公式是: H=-log2(P) H 为信息熵的值(或叫信息量),单位是比特(bit). 在这基点上,他依据资料引证: 英文的平均信息熵是 4.03 比特, 法文的平均信息熵是3.98, 西班牙文的是 4.01, 德文的是 4.10, 俄文的是 4.8, 而

每日一个机器学习算法——信息熵

1 定义 2 直观解释 信息熵用来衡量信息量的大小 若不确定性越大,则信息量越大,熵越大 若不确定性越小,则信息量越小,熵越小 比如A班对B班,胜率一个为x,另一个为1-x 则信息熵为 -(xlogx + (1-x)log(1-x)) 求导后容易证明x=1/2时取得最大,最大值为2 也就是说两者势均力敌时,不确定性最大,熵最大. 3 应用 数据挖掘中的决策树. 构建决策树的过程,就是减小信息熵,减小不确定性.从而完整构造决策树模型. 所以我们需要在每一次选择分支属性时,计算这样分类所带来的信息熵

信息熵和称小球问题

先简单说一下关于信息熵的东西: 信息熵是信息多少的量度,一个事件所携带的信息量跟它出现的概率反相关,直观上来说,一个事件出现的越频繁则每次该事件出现时携带的信息就少,反之如果一个事件非常少见,则该事件出现的时候携带的信息量就非常高. 具体公式是: $$I= -log(p)$$ 也就是 $$I=log(p/1)$$ 其中p为此事件的概率 其期望为: $$E(I) = -\sum plog(p)$$ 当log是以2为底的时候 I的单位为 bit,当log以e为底时,I的单位为nat,在信息论中他们对

信息熵与互信息的概念

信息熵与互信息的概念 本文主要介绍信息论中最基础但同时也是贯穿始终的四个概念,分别是信息熵.条件熵.互信息以及条件互信息.尝试着使用通俗易懂的语言,简单浅显的例子来使得大家对理解这几个数学概念提供一些帮助. 1.    信息熵 现在是信息爆炸的时代,我们都可以通过手机接入互联网,有可能你早上睁开眼睛的第一件事情就是刷个微博.看看新闻(虽然我很不赞同这么做^_^),我们接触到海量的各种消息,从当中我们获取信息,那么你有没有想过你到底得到了多少信息量呢?是不是我们看的新闻越多.读的材料越多就等同获取

从信息熵角度去理解问题

信息是个很抽象的概念.人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少.比如一本五十万字的中文书到底有多少信息量.直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题.三国真人娱乐城 一条信息的信息量大小和它的不确定性有直接的关系.比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息.相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚.所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少.

【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集

(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景 决策书算法是一种逼近离散数值的分类算法,思路比較简单,并且准确率较高.国际权威的学术组织,数据挖掘国际会议ICDM (the IEEE International Conference on Data Mining)在2006年12月评选出了数据挖掘领域的十大经典算法中,C4.5算法排名第一.C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. 算法的主要思想就是将数据集依照特