和男人人做的网站,深圳建网站三千,重庆在线最新招聘信息,为什么网站需要维护神经网络 代价函数
首先引入一些便于稍后讨论的新标记方法#xff1a;
假设神经网络的训练样本有 m m m个#xff0c;每个包含一组输入 x x x和一组输出信号 y y y#xff0c; L L L表示神经网络层数#xff0c; S I S_I SI表示每层的neuron个数( S l S_l Sl表示输出…神经网络 代价函数
首先引入一些便于稍后讨论的新标记方法
假设神经网络的训练样本有 m m m个每个包含一组输入 x x x和一组输出信号 y y y L L L表示神经网络层数 S I S_I SI表示每层的neuron个数( S l S_l Sl表示输出层神经元个数) S L S_L SL代表最后一层中处理单元的个数。
将神经网络的分类定义为两种情况二类分类和多类分类
二类分类 S L 0 , y 0 o r 1 S_L0, y0\, or\, 1 SL0,y0or1表示哪一类 K K K类分类 S L k , y i 1 S_Lk, y_i 1 SLk,yi1表示分到第 i i i类 ( k 2 ) (k2) (k2) 我们回顾逻辑回归问题中我们的代价函数为 J ( θ ) − 1 m [ ∑ i 1 m y ( i ) log h θ ( x ( i ) ) ( 1 − y ( i ) ) log ( 1 − h θ ( x ( i ) ) ) ] λ 2 m ∑ j 1 n θ j 2 J(\theta) -\frac{1}{m} \left[\sum_{i1}^{m}y^{(i)}\log{h_\theta(x^{(i)})} (1 - y^{(i)})\log\left(1 - h_\theta(x^{(i)})\right)\right] \frac{\lambda}{2m}\sum_{j1}^{n}\theta_j^2 J(θ)−m1[i1∑my(i)loghθ(x(i))(1−y(i))log(1−hθ(x(i)))]2mλj1∑nθj2
在逻辑回归中我们只有一个输出变量又称标量scalar也只有一个因变量 y y y但是在神经网络中我们可以有很多输出变量我们的 h θ ( x ) h_\theta(x) hθ(x)是一个维度为 K K K的向量并且我们训练集中的因变量也是同样维度的一个向量因此我们的代价函数会比逻辑回归更加复杂一些为 \newcommand{\subk}[1]{ #1_k } h θ ( x ) ∈ R K h_\theta\left(x\right)\in \mathbb{R}^{K} hθ(x)∈RK ( h θ ( x ) ) i i t h output {\left({h_\theta}\left(x\right)\right)}_{i}{i}^{th} \text{output} (hθ(x))iithoutput J ( Θ ) − 1 m [ ∑ i 1 m ∑ k 1 K y k ( i ) log ( h Θ ( x ( i ) ) ) ( 1 − y k ( i ) ) log ( 1 − h Θ ( x ( i ) ) ) ] λ 2 m ∑ l 1 L − 1 ∑ i 1 s l ∑ j 1 s l 1 ( Θ j i ( l ) ) 2 J(\Theta) -\frac{1}{m} \left[ \sum_{i1}^{m} \sum_{k1}^{K} y_k^{(i)} \log (h_\Theta(x^{(i)})) \left( 1 - y_k^{(i)} \right) \log \left( 1 - h_\Theta \left( x^{(i)} \right) \right) \right] \frac{\lambda}{2m} \sum_{l1}^{L-1} \sum_{i1}^{s_l} \sum_{j1}^{s_{l1}} \left( \Theta_{ji}^{(l)} \right)^2 J(Θ)−m1[i1∑mk1∑Kyk(i)log(hΘ(x(i)))(1−yk(i))log(1−hΘ(x(i)))]2mλl1∑L−1i1∑slj1∑sl1(Θji(l))2
这个看起来复杂很多的代价函数背后的思想还是一样的我们希望通过代价函数来观察算法预测的结果与真实情况的误差有多大唯一不同的是对于每一行特征我们都会给出 K K K个预测基本上我们可以利用循环对每一行特征都预测 K K K个不同结果然后在利用循环在 K K K个预测中选择可能性最高的一个将其与 y y y中的实际数据进行比较。
正则化的那一项只是排除了每一层 θ 0 \theta_0 θ0后每一层的 θ \theta θ 矩阵的和。最里层的循环 j j j循环所有的行由 s l 1 s_{l1} sl1 层的激活单元数决定循环 i i i则循环所有的列由该层 s l s_l sl层的激活单元数所决定。即 h θ ( x ) h_\theta(x) hθ(x)与真实值之间的距离为每个样本-每个类输出的加和对参数进行regularization的bias项处理所有参数的平方和。