手机pc网站模板,开封做网站推广,高埗镇网站仿做,百度服务电话看到文章的标题#xff0c;肯定有人想说“诶#xff1f;小夕你不是做人工智能吗#xff1f;怎么又捣鼓起通信里面的信息论了#xff1f;”小夕肯定会很开心的揪住你#xff0c;然后说“哈哈哈~发现一只外行#xff01;”学过机器学习的喵喵肯定知道很多决策树的核心就是计… 看到文章的标题肯定有人想说“诶小夕你不是做人工智能吗怎么又捣鼓起通信里面的信息论了”小夕肯定会很开心的揪住你然后说“哈哈哈~发现一只外行”学过机器学习的喵喵肯定知道很多决策树的核心就是计算信息论中的XX熵自然语言处理NLP中的信息论更是无处不在。但是很多喵喵抱怨“各种XX熵各种XX信息全都是数学公式只会生搬硬套却完全不知道有什么意义也完全不知道怎么用嘛~”好咯小夕下面就带你逐个击破熵/自信息熵又称为自信息(self-information)在通信系统中表示信源每发一个符号(不论发什么符号)时所提供的平均信息量。同时熵也可以被视为描述一个事件/随机变量的不确定性的大小一个事件/随机变量的熵越大那么它的不确定性就越大因此正确估计该事件/随机变量的值的可能性就越小。随机变量可以简单理解为取值按照某种规律随时间随机变化的变量。 上面这段话看似很乱其实要核心意思就是用“熵”可以描述一个事件/随机变量的信息量而越稀有的东西发生的可能性越小的事件所包含的信息量越大。其实很好理解呀。你想想对于一个发生的可能性很大的事件比如一个人告诉你明天太阳从西边出来。那么你肯定会用关爱傻子的眼神看他。但是如果一个人告诉你明天这里要发生大地震那你要是不跳起来的话说明你的心理素质真是蛮好的。所以说呀一个小概率事件会携带特别多的信息量而太大的信息量会让人受不了的比如让小夕的爸妈接受小夕是女孩子的事实难呀╮(╯▽╰)╭哦对了熵的单位是比特bit所以熵越大的事件/随机变量就要花越多的比特来表示咯。 在NLP领域有个好玩的计算就是对各种语言的熵进行计算。结果1989年的时候对英语字母的熵进行计算的结果是4.03比特而汉字的熵高达9.71比特这说明了什么呢从直观的结果来看表示一个汉字所需要的内存空间要比表示一个英文字母所需的空间大的多想象一下ASCII码足以容纳全部英语字母而常用汉字都远远的容不下。从更深层的角度看也说明我们对字母序列比如单词进行预测的难度要比对汉字序列比如词语、成语进行预测的难度大很多因为汉字的不确定性也就是熵太大了高能公式联合熵联合熵就是描述一对事件/一对随机变量平均需要的信息量。注意这里说的是一对也就是两个你可能想说“描述两个事件的信息量直接对两个事件的信息量相加再除以2不就行了嘛~搞这么多稀奇古怪的定义干嘛呢” 这位童鞋请再深入的想一下假如这里有两个事件一个事件是“明天你家后面的那个火山会爆发”这个事件包含1000bits的信息量。另一个事件是“明天你的豪宅就会被火山熔浆给融化了”这个事件包含1200bits的信息量。 那么如果告诉了你第一个事件你很惊讶你被砸了1000bits的信息量。这时再告诉你第二个事件那么你还会再次惊讶吗当然不会啦你只会惊讶一次。因此第二次被砸的信息量远小于1200bits。但是如果把这两个事件分别告诉两个人那么他们肯定都会特别惊讶因此一共惊讶两次。为什么会这样呢就是因为这两个事件的联合起来的信息量即联合熵并不是简单的相加的关系。专业的说法是这两个事件并不是相互独立的。高能公式条件熵理解了联合熵条件熵就好理解啦~条件熵就是已知一个事件发生的情况下另一个事件的信息量。回想刚才的火山的例子已知“火山喷发”的情况下“豪宅要被熔浆融化”的信息量就不大了。但单独的一个“豪宅要被熔浆融化”的信息量可是爆表的呀。高能公式互信息互信息也是说两个事件/随机变量之间的事儿。X与Y的互信息就是X的自信息熵减去【已知X的情况下Y的条件熵】。直白的讲就是知道了X的值以后Y的值的不确定性会降低多少。也就是说X的值会透露多少关于Y的信息量。 比如我们可以用互信息来分词。根据互信息的定义当两个汉字的互信息越大时表示这两个字的结合越紧密因此这两个汉字越可能组合成词。因此我们只要计算出一个句子中前后两个字之间的互信息不就可以轻松分词了嘛~小夕偷偷告诉你效果并不好高能公式相对熵相对熵也称KL距离用来描述两个事件的相近程度或者说衡量两个随机分布的差距。当两个随机分布完全相同时相对熵为0。两个随机分布差别越大相对熵也越大。 想象一下虽然前文的“火山爆发”与“熔浆融化豪宅”这两个事件互推的条件熵很小但是这两个事件的含义却差别很大因此它们的相对熵计算出来也会比较大。但是“明天火山爆发”与“明天下午两点火山喷发”的相对熵就会很小因为它们几乎是同一个事件。高能公式交叉熵交叉熵的理解要抽象一些它衡量的是一个估计的分布(模型)与真实概率分布之间的差异。 举个小例子解释我们要设计语言模型来接近最真实的语言。语言模型越接近真实语言那么通过该模型我们就很容易产生人类容易理解的句子、对话等此时我们就可以说该语言模型的交叉熵很小。 但是如果你设计了一个语言模型这个模型产生了“大极少上考虑”这种奇怪的句子不符合真实的语言因此就说你的语言模型交叉熵很大。 当然啦实际上在描述语言模型时一般不说交叉熵而是说“困惑度”。虽然两者的数学形式略有不同但本质上是一样的东西。高能公式经过小夕的牵手有没有与XX熵和XX信息们成为好朋友呢\(^o^)/~