电子商城网站设计论文,xammp配置wordpress,网络营销策略主要包括,个人主页格式一、回归
可以拿正态分布为例#xff0c;比如身高#xff0c;若平均身高为1.78m#xff0c;绝大多数人都是1.78m左右#xff0c;超过2m的很少#xff0c;低于1m的也不多。 很多事情都会回归到一定的区间之内#xff0c;即回归到平均值。
机器学习没有完美解#xff0c…一、回归
可以拿正态分布为例比如身高若平均身高为1.78m绝大多数人都是1.78m左右超过2m的很少低于1m的也不多。 很多事情都会回归到一定的区间之内即回归到平均值。
机器学习没有完美解只有最优解。 机器学习的目的就是要以最快的速度找到误差最小的那个最优解。
二、线性回归
线性一次方关系yab*x各点连接可以形成一条直线。 线性即量与量之间按比例、呈直线的关系在空间和时间上代表规则和光滑的运动。 x是影响y的因素或维度 总结起来线性回归就是①数据y和x呈一次方关系、②数据中的每条记录都符合正态分布
三、最小二乘法 例如y a * x b(x1,y1)(x2,y2)(x3,y3)(x4,y4)因为是一元一次函数其实只需要两个点就可以确定出a和b的值但实际上会有很多的数据点此时就需要两两组合分别求出a和b的值对应不同的a和b求得的y’值是不相同的分别代入损失函数中去求得损失函数的值找取最小的a和b的值即为最优解该a和b参数就是我们要求的最优解。
假设有m个样本点y’为直线上的点y为真实点的位置一个样本误差为y’-y。 通常把损失函数loss定义为 我们的目的就是尽可能使得loss损失函数值最小找到那个最优参数a和b。
四、多元线性回归
现实生活中对数据的分析不可能仅仅一个自变量绝大多数情况都是多个自变量进行分析。 多元线性也就是多元一次函数。本质就是算法(公式)变换为了多元一次方程组。一般来讲W和X都是n维列向量。 一般情况下x0恒为1目的是方便转换为矩阵进行求解。
其中x1x2…xn表示n个样本点。 也常表示为其中ε为误差就等价于随机变量θ就是Wy表示真实值θTx为预测值。真实值预测值误差。
五、最大似然估计
最大似然估计是一种统计方法它用来求一个样本集的相关概率密度函数的参数。 似然likelihood也就是可能性与probabilite概率的同义词可以互换。
六、中心极限定理
中心极限定理是概率论中讨论随机变量序列部分和分布渐进于正态分布的一类定理。 这组定理是数理统计和误差分析的理论基础指出了大量随机变量积累分布函数逐点收敛到正态分布的积累分布函数的条件。 它是概率论中最重要的一类定理有广泛的实际应用背景。在自然界与生产中一些现象受到许多相互独立的随机因素的影响如果每个因素所产生的影响都很微小时总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。
七、误差
第i个样本实际的值(y) 预测的值(y’) 误差(ε) 假定所有的样本都是独立的有上下的震荡震荡认为是随机变量足够多的随机变量叠加之后形成的分布根据中心极限定理它服从的就是正态分布因为它是正常状态下的分布也就是高斯分布。均值和方差都是某个具体的值。 既然误差符合均值为0方差为平方的正态分布那么就可以把它的概率密度函数给写出来。
八、概率密度函数
最简单的概率密度函数是均匀分布的密度函数。 最简单的概率密度函数是均匀分布的 密度函数也就是说当x不在[a,b]上的时候函数值等于0而在区间[a,b]上的时候函数值等于这个函数。这个函数并不是完全的连续函数但是它是可积函数。
正态分布是重要的概率分布它的概率密度函数是随着参数μ和σ的变化概率分布也产生变化。
真实值 预测值 误差ε误差等价于随机变量目的是用ε代替(x-μ)。 把公式代入上述概率密度函数中得 求得第i个样本的概率密度。 把误差ε用表达式代替得出第i个样本的最大似然估计函数。
概率密度不等于概率但是概率密度跟概率是等价的。就类似 你不知这个人的体型但是你知道他穿的衣服的长度等信息。 上述为一个样本的概率密度要求所有样本的概率密度即 最大总似然估计函数(likelihood) 连乘确实优点麻烦故想到了通过对数函数运行进行转换为连加。 前半部分是个常数为了简化操作将后半部分提出来形成一个新的目标函数。 最终得到目标函数 要求L(θ)最大即等价于求解J(θ)最小我们关系的不是J(θ)我们要找的只是θ取何值J(θ)最小关心的是θ
九、总结
Ⅰ为什么求总似然的时候要用正态分布的概率密度函数 答因为中心极限定理可以得知如果假设样本之间是独立事件误差变量随机产生那么它就服从正态分布。
Ⅱ总似然不是概率相乘吗为什么用概率密度函数进行相乘 答因为概率不好求所以当找到概率密度相乘最大的时候就相当于找到了概率相乘最大的时候。
Ⅲ概率为什么不好求 答概率在正态分布中表示的时候面积面积需要积分然而我们的样本都是离散的点故真正的面积是无法积分出来的即概率不好求。
Ⅳ总似然最大和最优解有啥关系 答当找到可以使得总似然最大的条件也就可以找到DataSet数据集最吻合某个正态分布即找到了最优解。