别人的做网站,下载 网站样板,h5技术的网站,网络营销代理机器学习是一门对数学有很高要求的学科#xff0c;在正式开始学习之前#xff0c;我们需要掌握一定的数学理论#xff0c;主要包括概率论、决策论、信息论。
一、极大似然估计#xff08;Maximam Likelihood Estimation#xff0c;MLE #xff09;
在了解极大似然估计之…机器学习是一门对数学有很高要求的学科在正式开始学习之前我们需要掌握一定的数学理论主要包括概率论、决策论、信息论。
一、极大似然估计Maximam Likelihood EstimationMLE
在了解极大似然估计之前我们首先要明确什么是似然函数likelihood function对于p(x∣θ)p(x|θ)p(x∣θ) 当θθθ是已知xxx是变量p(x∣θ)p(x|θ)p(x∣θ)表示概率函数描述的是xxx出现的概率是多少 当xxx是已知θθθ是变量p(x∣θ)p(x|θ)p(x∣θ)表示似然函数描述的是对于不同的模型θθθ决定出现样本点xxx的概率是多少。 似然可以理解为概率只是表征的含义不同通常利用求极大似然来确定模型参数极大似然的描述如下 极大似然估计是一种已知样本估计参数的方法。通过给定样本集DDD估计假定模型的参数极大似然估计可以帮助我们从参数空间中选择参数使该参数下的模型产生DDD的概率最大。
1.求解极大似然函数 重要前提训练样本的分布能够代表样本的真实分布每个样本集中的样本都是独立同分布的随机变量并且有充分的训练样本。 已知样本集D{x1,x2,x3,...,xmx_1,x_2,x_3,...,x_mx1,x2,x3,...,xm}{y1,y2,y3,...,ymy_1,y_2,y_3,...,y_my1,y2,y3,...,ym}则似然函数表示为 L(θ)p(y∣x;θ)∏i1mp(y(i)∣x(i);θ)L(θ)p(y|x;θ)\displaystyle\prod_{i1}^{m} p(y^{(i)}|x^{(i)};θ)L(θ)p(y∣x;θ)i1∏mp(y(i)∣x(i);θ) 确定θθθ使模型出现样本集D的概率表示为条件概率最高即为我们所求即 θargmaxL(θ)argmax∏i1mp(y(i)∣x(i);θ)θargmaxL(θ)argmax\displaystyle\prod_{i1}^{m} p(y^{(i)}|x^{(i)};θ)θargmaxL(θ)argmaxi1∏mp(y(i)∣x(i);θ) 为便于计算与分析定义了对数似然函数H(θ)logL(θ)H(θ)logL(θ)H(θ)logL(θ)θargmax∑i1mlogp(y(i)∣x(i);θ)θargmax\displaystyle\sum_{i1}^{m}logp(y^{(i)}|x^{(i)};θ)θargmaxi1∑mlogp(y(i)∣x(i);θ)现在我们确定了目标函数H(θ)H(θ)H(θ)需要求得一组θθθ使H(θ)H(θ)H(θ)最大可以通过求导数的方法解决这个问题以高斯分布的参数估计Gaussian Parameter Estimation为例求解过程如下 设样本服从正态分布N(μ,σ2)N(μ,σ^2)N(μ,σ2)首先写出似然函数L(μ,σ2)p(x;μ,σ2)∏n1NN(xn;μ,σ2)L(μ,σ^2)p(x;μ,σ^2)\displaystyle\prod_{n1}^{N}N(x_n;μ,σ^2)L(μ,σ2)p(x;μ,σ2)n1∏NN(xn;μ,σ2) L(μ,σ2)L(μ,σ^2)L(μ,σ2)的对数为 求导得方程组 解得 2.误差平方和的解释 在模式识别与机器学习一中我们讲到采用误差平方和原理来求解多项式系数为何使用误差平方和作为衡量模型精度的标准呢用极大似然估计可以解释。 我们观察下图这是上一节课中讲到的多项式曲线拟合模型红色曲线代表拟合结果蓝色点代表样本点。 我们把每一个xxx看作独立的随机变量对应的样本点ttt服从均值为y(x0,w)y(x_0,w)y(x0,w)的正态分布一般来讲误差服从均值为零的正态分布平移y(x0,w)y(x_0,w)y(x0,w)个单位即p(t∣x0,w,β)N(t∣y(x0,w),β−1)p(t|x_0,w,β)N(t|y(x_0,w),β^{-1})p(t∣x0,w,β)N(t∣y(x0,w),β−1)利用极大似然估计使ttt出现的概率最大p(t∣x,w,β)∏n1NN(tn∣y(xn,w),β−1)p(t|x,w,β)\displaystyle\prod_{n1}^{N}N(t_n|y(x_n,w),β^{-1})p(t∣x,w,β)n1∏NN(tn∣y(xn,w),β−1)lnp(t∣x,w,β)−β2∑n1N{y(xn,w)−tn}2N2lnβ−N2ln(2π)\ln p(t|x,w,β)-\frac{β}{2}\displaystyle\sum_{n1}^{N}\{y(x_n,w)-t_n\}^2\frac{N}{2}\lnβ-\frac{N}{2}\ln(2π)lnp(t∣x,w,β)−2βn1∑N{y(xn,w)−tn}22Nlnβ−2Nln(2π)观察此式我们想要求得此式的极大值则需使12∑n1N{y(xn,w)−tn}2\frac{1}{2}\displaystyle\sum_{n1}^{N}\{y(x_n,w)-t_n\}^221n1∑N{y(xn,w)−tn}2取得最小值得证。
极大似然估计是三种机器学习方法中最基础的一种其余两种分别是贝叶斯估计方法和贝叶斯学习方法极大似然估计和贝叶斯估计的计算结果是精确的参数值而贝叶斯学习的计算结果是概率区间在后边我们会单独一章细致地进行学习这三种方法是机器学习的主线掌握这三种方法的原理才能对后边各种模型的学习和理解游刃有余。
3.贝叶斯估计最大后验概率MAP 我们需要知道使用极大似然估计方法容易使模型产生过拟合在上一章中我们解决的办法是增加正则项并且证明了正则项有效地解决了过拟合问题。现在我们尝试从贝叶斯估计的角度推导出正则项的由来与合理性。
由贝叶斯公式我们得知posterior∝likelihood×priorposterior∝likelihood×priorposterior∝likelihood×prior即后验概率可由似然与先验概率相乘得到之前讲到的极大似然估计我们仅仅用到了likelihoodlikelihoodlikelihood现在我们假设参数有一个先验概率如此便可通过公式求得后验概率接下来与极大似然类似的使后验概率最大求得模型参数。 假定对参数www先验概率为p(w∣α)N(w∣0,α−1I)(α2π)(M1)/2exp{−α2wTw}p(w|α)N(w|0,α^{-1}I)(\frac{α}{2π})^{(M1)/2}exp\{-\frac{α}{2}w^Tw\}p(w∣α)N(w∣0,α−1I)(2πα)(M1)/2exp{−2αwTw}, 根据贝叶斯公式求得后验概率p(w∣x,t,α,β)∝p(t∣x,w,β)×p(w∣α)p(w|x,t,α,β)∝p(t|x,w,β)×p(w|α)p(w∣x,t,α,β)∝p(t∣x,w,β)×p(w∣α)将似然函数与先验概率带入式中得到后验概率的数学表达式。欲使后验概率获得最大值等价于βE(w)β2∑n1N{y(xn,w)−tn}2α2wTwβE(w)\frac{β}{2}\displaystyle\sum_{n1}^{N}\{y(x_n,w)-t_n\}^2\frac{α}{2}w^TwβE(w)2βn1∑N{y(xn,w)−tn}22αwTw取得最小值我们发现表达式中α2wTw\frac{α}{2}w^Tw2αwTw即为前述的正则项得证。 极大似然估计易导致过拟合贝叶斯估计为参数提供了先验概率形式上增加了正则函数结果上抑制了过拟合的产生。
二、概率论基础Probability Theory
1.p(X)∑Yp(X,Y)p(X)\displaystyle\sum_Yp(X,Y)p(X)Y∑p(X,Y) p(X,Y)p(Y∣X)p(X)p(X,Y)p(Y|X)p(X)p(X,Y)p(Y∣X)p(X) 2.贝叶斯理论Bayes’Theorem p(Y∣X)p(X∣Y)p(Y)p(X)p(Y|X)\frac{p(X|Y)p(Y)}{p(X)}p(Y∣X)p(X)p(X∣Y)p(Y) posterior∝likelihood×priorposterior∝likelihood×priorposterior∝likelihood×prior 3.概率函数 累积分布函数描述随机变量取值分布规律的数学表示表示对于任何实数xxx事件Xlt;xXlt;xXx的概率。 概率密度函数描述随机变量的输出值在某个确定的取值点附近的可能性的函数。随机变量的取值落在某个区域之内的概率为概率密度函数在这个区域上的积分。当概率密度函数存在的时候累积分布函数是概率密度函数的积分。概率密度函数表示的是概率的分布情况在某个点取值高说明样本在该点附近出现的概率大。 p(x)p(x)p(x)表示概率密度函数P(x)P(x)P(x)表示概率分布函数。 p(x∈(a,b))∫abp(x)dxp(x∈(a,b))\int_a^bp(x)dxp(x∈(a,b))∫abp(x)dx p(x)≥0p(x)≥0p(x)≥0 ∫−∞∞p(x)dx1\int_{-∞}^{∞}p(x)dx1∫−∞∞p(x)dx1 P(z)∫−∞zp(x)dxP(z)\int_{-∞}^{z}p(x)dxP(z)∫−∞zp(x)dx
数学期望试验中每次可能结果的概率乘以其结果的总和数学期望可以理解为均值。 E[f]∑xp(x)f(x)E[f]\displaystyle\sum_xp(x)f(x)E[f]x∑p(x)f(x) E[f]∫p(x)f(x)dxE[f]\int p(x)f(x)dxE[f]∫p(x)f(x)dx 4.高斯分布Gaussian Distribution 若随机变量X服从一个数学期望为μμμ、标准方差为σ2σ^2σ2的高斯分布记为XXX~N(μ,σ2)N(μ,σ^2)N(μ,σ2)概率密度如下图所示 N(x∣μ,σ2)1(2πσ2)1/2exp{−12σ2(x−μ)2}N(x|μ,σ^2)\frac{1}{(2πσ^2)^{1/2}}exp\{-\frac{1}{2σ^2}(x-μ)^2\}N(x∣μ,σ2)(2πσ2)1/21exp{−2σ21(x−μ)2} N(x∣μ,σ2)gt;0N(x|μ,σ^2)gt;0N(x∣μ,σ2)0 ∫−∞∞N(x∣μ,σ2)dx1\int_{-∞}^{∞}N(x|μ,σ^2)dx1∫−∞∞N(x∣μ,σ2)dx1 E[x]∫−∞∞N(x∣μ,σ2)xdxμE[x]\int_{-∞}^{∞}N(x|μ,σ^2)xdxμE[x]∫−∞∞N(x∣μ,σ2)xdxμ E[x2]∫−∞∞N(x∣μ,σ2)x2dxμ2σ2E[x^2]\int_{-∞}^{∞}N(x|μ,σ^2)x^2dxμ^2σ^2E[x2]∫−∞∞N(x∣μ,σ2)x2dxμ2σ2 二元高斯分布如下图所示 三、信息熵Entropy
信息熵在编码学、统计学、物理学、机器学习中有很重要的应用我们有必要对信息熵的相关知识具备一定程度的了解。
1.信息量 信息量用一个信息的编码长度来定义一个信息的编码长度与其出现概率是呈负相关的可以理解为为使总信息编码量最低出现高概率的的信息编码长度应相对短也就是说一个词出现的越频繁,则其编码方式也就越短。信息量计算方法为 Ilog2(1p(x))−log2(p(x))I\log_2(\frac{1}{p(x)})-\log_2(p(x))Ilog2(p(x)1)−log2(p(x))
2.信息熵 信息熵代表一个分布的信息量信息量的均值或者编码的平均长度 H(p)∑xp(x)log2(1p(x))−∑xp(x)log2(p(x))H(p)\displaystyle\sum_xp(x)\log_2(\frac{1}{p(x)})-\displaystyle\sum_xp(x)\log_2(p(x))H(p)x∑p(x)log2(p(x)1)−x∑p(x)log2(p(x)) 从数学公式中可以看出信息熵实际上是一个随机变量的信息量的数学期望那么信息熵的含义是什么呢信息熵是系统有序化程度的度量系统越有序信息熵越低也就是说系统中各种随机性的概率越均等不确定性越高信息熵越大反之越小。为什么有这种对应关系呢我们假设系统有两个事件AAA和BBB当P(A)P(B)12P(A)P(B)\frac{1}{2}P(A)P(B)21时我们无法判断会发生事件AAA还是BBB这时系统的不确定性高、系统无序当P(A)99100P(A)\frac{99}{100}P(A)10099P(B)1100P(B)\frac{1}{100}P(B)1001此时大概率发生事件AAA系统具有一定的确定性、相对有序。前者信息熵高后者信息熵低。 接下来我们举一个信息熵计算的例子如下所示 H(p)−12log212−14log214−18log218−116log2116−464log21642bitsH(p)-\frac{1}{2}\log_2\frac{1}{2}-\frac{1}{4}\log_2\frac{1}{4}-\frac{1}{8}\log_2\frac{1}{8}-\frac{1}{16}\log_2\frac{1}{16}-\frac{4}{64}\log_2\frac{1}{64}2bitsH(p)−21log221−41log241−81log281−161log2161−644log26412bits
averageaverageaverage codecodecode lengthlengthlength12×114×218×3116×44×116×62bits\frac{1}{2}×1\frac{1}{4}×2\frac{1}{8}×3\frac{1}{16}×44×\frac{1}{16}×62bits21×141×281×3161×44×161×62bits 信息熵代表编码的平均长度。
3.相对熵KL散度 相对熵又称KL散度对于同一个随机变量xxx有两个单独的概率分布p(x)p(x)p(x)和q(x)q(x)q(x)我们可以用KL散度(Kullback-Leibler Divergence)来衡量这两个分布的差异。在机器学习中P表示样本的真实分布Q表示模型预测的分布。 KL散度的计算公式为ppp对qqq的相对熵DKL(p∣∣q)∑i1np(xi)log(p(xi)q(xi))D_{KL}(p||q)\displaystyle\sum_{i1}^{n}p(x_i)\log(\frac{p(x_i)}{q(x_i)})DKL(p∣∣q)i1∑np(xi)log(q(xi)p(xi))DKLD_{KL}DKL的值越小表示qqq分布和ppp分布越接近。
4.交叉熵cross-entropy DKLD_{KL}DKL可以变形得到DKL∑i1np(xi)logp(xi)−∑i1np(xi)logq(xi)−H(p(x))[−∑i1np(xi)logq(xi)]D_{KL}\displaystyle\sum_{i1}^np(x_i)\log p(x_i)-\displaystyle\sum_{i1}^np(x_i)\log q(x_i)-H(p(x))[-\displaystyle\sum_{i1}^np(x_i)\log q(x_i)]DKLi1∑np(xi)logp(xi)−i1∑np(xi)logq(xi)−H(p(x))[−i1∑np(xi)logq(xi)]等式的前一部分是ppp的信息熵等式的后一部分就是交叉熵 H(p,q)−∑i1np(xi)logq(xi)H(p,q)-\displaystyle\sum_{i1}^np(x_i)\log q(x_i)H(p,q)−i1∑np(xi)logq(xi)。在机器学习中需要评估labellabellabel和predictpredictpredict之间的差距应使用相对熵来衡量由于DKLD_{KL}DKL的前一部分不变所以在优化过程中只需关注交叉熵即可因此在机器学习中常常用交叉熵作为losslossloss来评估模型。
未完待续