网站建设价格标准报价单,有哪些用wordpress,中文网站建设哪家好,导购类网站建设多少钱花了很久看了一下玻尔兹曼机#xff0c;感觉水有点深#xff0c;总之一步一步来嘛~~~~
先说一下一个非常好的参考资料#xff1a; 受限玻尔兹曼机#xff08;RBM#xff09;学习笔记 #xff0c;有兴趣的可以再看看这篇文章的参考文献或者博客#xff0c;写的也非常好感觉水有点深总之一步一步来嘛~~~~
先说一下一个非常好的参考资料 受限玻尔兹曼机RBM学习笔记 有兴趣的可以再看看这篇文章的参考文献或者博客写的也非常好本文就是基于这篇文章的理解简单证明一下RBM
接下来开证不对之处欢迎指正
①我们首先要知道玻尔兹曼机是一种基于统计力学提出来的能量模型是一个随机神经元模型首先介绍一下各个参数 ②已知条件利用能量函数可以得到可见层和隐藏层的联合概率分布 ③然后我们利用联合概率计算边缘分布函数可以得到可见层V的分布函数
直接把和拿到分子的原因是分母为归一化常量为常量
④接下来我们就是要可见层数据最大性的拟合总体样本空间的分布我们假设总体分布为q(x)总空间为Ω然后我们用KL距离来计算样本分布和可见层分布的相似度
关于KL距离请看我前面写过的博客它是一种不对称距离。既然我们要求P(x)拟合Q(x)损失的能量那么就用下式计算 ⑤然后我们会发现只有当P(x)最大的时候才能让KL距离最小这时候损失能量最小因为总样本空间是固定的所以这个Q(x)也是固定只需管P(x)即可。接下来我们来求这个P(v)的最大值求关于概率函数的最大值我们很快就能想到极大似然函数当然求解的时候用取对数方法求解 ☆ ☆ ☆ ☆ ☆ ☆一定要注意这个式子就是我们需要解决的问题最好把它列在稿纸一边 ☆ ☆ ☆ ☆ ☆
⑥接下来我们对模型参数中的权重W和偏置AB分别求其偏导数记住上式中能量函数 E 在上面说过了主要就是求前面的条件概率和联合概率
这里提前定义一个东西
先来逐步求解上式中第一项对模型参数中权重W偏置A和B的偏导
————————————————————————————————————————————————————————————————————
(红色部分等于1这一部分自己好好想一下,文末举了个小例子)
———————————————————————————————————————————————————————————————————— ———————————————————————————————————————————————————————————————————— ————————————————————————————————————————————————————————————————————
细心的话会发现这个P(hj1|v)没有求出来接下来我们求这一项
这里我们将能量函数拆开成两个式子 那么可以开始求P(hj1|v)了 随后也就得到了最终的激活概率 ⑦第⑤步的第一项我们计算完毕再来计算一下第二项
这里面第二个∑ 已经在上面计算出来了
⑧至此我们基本求出了第⑤步中需要计算的所有参数但是有一个没求出来写出来以后就会发现 ⑨我们可以发现上面有一项∑[P(v)*....]是没有计算出来的这个时候我们就必须使用某些采样方法对此项进行估计。仔细观察, 发现他的形式是(概率*概率)如果你看过蒙特卡洛方法就会发现蒙特卡洛是(函数*概率), 意思是这个函数再这个概率分布下的均值因而可以采用蒙特卡洛方法来解决这一项无法求解问题. 大牛Hinton提出了对比散度算法也就是把可见层输入数据当做起点经过K次吉布斯采样的样本当做终点近似计算上面三个式子然后就变成了 —————————————————————————————————————————————————————————————————————————————
好了做一下总结其实这里面都是围绕着最终要解决的问题也就是第⑤步提出的那个对模型参数求梯度的式子针对第一项和第二项我们分别求解利用的知识点比较多我第一次看的时候也不懂但是看一次代码然后再回头看这个也就差不多懂一部分了。
最后说一下哈文章参考的是这篇文章http://blog.csdn.net/itplus/article/details/19408143 有兴趣可以去详细看看的。
有不对的地方谢谢大家指正~~~~
更新日志2017-8-30
关于⑥中红字部分的概率和为什么等于1其实我也不太好说明我的想法对不对我当时以一个小例子想的
1.比如有编号为1-6的六个球那么随便取出来一个它的概率和为1
2.因为每次取球相互独立类比隐神经元相互独立所以可以把球拆成两部分1-4一组5-6一组,每组自己的概率和为1
3.然后我们用加和的方法写出从1→2的数学表达式变换方法 如果此变换没错问了几个同学表示应该没问题特别强调独立那么很容易发现 这样如果我们把RBM证明中的h当做1-6的球空间hj为1-4的球空间h-j为5-6的球空间然后替换上式就得到了 理解了这个就知道为什么上面那个条件概率和为1了。