网站开发与应用案例教程,网站建站和维护,东莞网上注册公司,网页免费模板下载什么是EM(最大期望值算法)
在现实生活中#xff0c;苹果百分百是苹果#xff0c;梨百分白是梨。 生活中还有很多事物是概率分布#xff0c;比如有多少人结了婚#xff0c;又有多少人有工作#xff0c; 如果我们想要调查人群中吸大麻者的比例呢#xff1f;敏感问题很难得…什么是EM(最大期望值算法)
在现实生活中苹果百分百是苹果梨百分白是梨。 生活中还有很多事物是概率分布比如有多少人结了婚又有多少人有工作 如果我们想要调查人群中吸大麻者的比例呢敏感问题很难得到真实回答这时就可以利用概率让调查匿名化在“你吸大麻吗”这个问题之外再提出一个问题“你的手机尾号是偶数吗”然后邀请参与者投掷硬币正面回答问题1反面则回答问题2。 调查以电话进行手机尾号是偶数的比例已经确定只要调查样本足够多抛硬币能让回答问题1和问题2的人接近相等在不知道回答的是哪个问题的情况下我们依然轻松推测出了人群中吸大麻者的比例这就是概率的魔法。 现在让我们将问题2稍做变更将“手机尾号是偶数”替换成“你吸烟吗”这样的未知概率事件我们还能推断出吸大麻者的概率吗 答案依然是能只不过这次我们改变了调查方法向每五个人发放同一个问题邀请他们回答不记录问题是什么只记录他们的答案在保证匿名性的同时我们得到了一些不知归属的成答案。 接下来就轮到EM算法 EM算法的步骤
随机化不知道答案属于拿一个问题就无法推测吸烟和吸大麻者的比例不知道这两个比例就无法推测答案属于哪一个问题既然如此我们就随机为吸烟者和吸大麻者赋予一个数值接下来用这些数值反过来去推测这些成组的答案属于两个问题的可能性这一步是在估算未知变量也就是问题归属的期望因此被称为E步 然后我们用这个可能性反过来估算吸烟者和吸大麻者的概率由于这个概率是可能性最大的因此被称为M步。 接下来重复第二步用新的概率推算答案属于两个问题的可能性再用可能性反过来推测概率循环往复直到估算出较为稳定的数值就停止 就这样我们推算出了人群中吸烟者和吸大麻者大致的概率这个过程是不是有点熟悉K-means的步骤同样是1.随机赋值、2.反复对照、3.不断逼近。事实上K-means就是EM算法的一个特例K-means的目标是获得两个中心坐标从而将梨和苹果作为两种事物进行区分。EM算法则能找到样本的分布规律在聚类的同时帮我们找到更多的梨和苹果。