网站宣传流程,wordpress 头部导航,网页设计题目,从化区城郊街道网站麻二村生态建设这里省略了深层神经网络的前向传播和反向传播#xff0c;内容和之前相似#xff0c;不做过多描述。若今后需要#xff0c;可以再补习。
一、为什么使用深层表示
解决问题时其实并不需要很大的神经网络#xff0c;但是得有深度#xff0c;得有比较多的隐藏层。这是为什么…这里省略了深层神经网络的前向传播和反向传播内容和之前相似不做过多描述。若今后需要可以再补习。
一、为什么使用深层表示
解决问题时其实并不需要很大的神经网络但是得有深度得有比较多的隐藏层。这是为什么呢如下图人脸识别神经网络所示 当输入一张脸部的照片你可以把深度神经网络的第一层当成一个特征探测器或者边缘探测器。在这个例子里我会在第一个隐藏层中建大概20个隐藏单元。隐藏单元就是这些图里这些小方块第一个隐藏层可视化图举个例子这个小方块第一行第一列就是一个隐藏单元它会去找这张照片里“|”边缘的方向。那么这个隐藏单元第四行第四列可能是在找“—”水平向的边缘。你可以先把神经网络的第一层当作看图然后去找这张照片的各个边缘。我们可以把照片里组成边缘的像素放在一起看然后它可以把被探测到的边缘组合成面部的不同部分第二隐藏层可视图。比如说可能有一个神经元会去找眼睛的部分另外还有别的在找鼻子的部分然后把这许多的边缘结合在一起就可以开始检测人脸的不同部分。最后再把这些部分放在一起比如鼻子眼睛下巴就可以识别或是探测不同的人脸第三隐藏层的可视化图。
你可以直觉上把这种神经网络的前几层当作探测简单的函数比如边缘之后把它们跟后几层结合在一起那么总体上就能学习更多复杂的函数。这些图的意义我们在学习卷积神经网络的时候再深入了解。还有一个技术性的细节需要理解的是边缘探测器其实相对来说都是针对照片中非常小块的面积。面部探测器就会针对于大一些的区域。但是主要的概念是一般你会从比较小的细节入手比如边缘然后再一步步到更大更复杂的区域比如一只眼睛或是一个鼻子再把眼睛鼻子装一块组成更复杂的部分。 这种从简单到复杂的金字塔状表示方法或者组成方法也可以应用在图像或者人脸识别以外的其他数据上。比如当你想要建一个语音识别系统的时候需要解决的就是如何可视化语音比如你输入一个音频片段那么神经网络的第一层可能就会去先开始试着探测比较低层次的音频波形的一些特征比如音调是变高了还是低了分辨白噪音咝咝咝的声音或者音调可以选择这些相对程度比较低的波形特征然后把这些波形组合在一起就能去探测声音的基本单元。在语言学中有个概念叫做音位比如说单词catc的发音“嗑”就是一个音位a的发音“啊”是个音位t的发音“特”也是个音位有了基本的声音单元以后组合起来你就能识别音频当中的单词单词再组合起来就能识别词组再到完整的句子。
所以深度神经网络的许多隐藏层中较早的前几层能学习一些低层次的简单特征等到后几层就能把简单的特征结合起来去探测更加复杂的东西。同时我们所计算的之前的几层也就是相对简单的输入函数比如图像单元的边缘什么的。到网络中的深层时你实际上就能做很多复杂的事比如探测面部或是探测单词、短语或是句子。
1.1 深度神经网络的特点
深度神经网络一般隐藏层数比较多但每一个隐藏层中的隐藏单元却不多隐藏单元总数也不多。如果用一个浅层神经网络代替深度神经网络要是想达到相同的效果通常浅层神经网络的神经单元总数要呈指数级增长。因此深度神经网络表现更加优秀。
1.2 深度神经网络的前向反向传播
下图是深度神经网络的前向反向传播图。上边是前向传播下边是反向传播中间是缓存cache。 二、参数和超参数
在我们上述例子中参数就是W和b最小化损失函数最后想要得到的数值。超参数1、学习率。2、梯度下降法循环的次数。3、隐藏层数目。4、每个隐藏层的隐藏单元数目。5、激活函数的选择。这些数字实际上控制了最后的参数W和b的值所以它们被称作超参数。
2.1 如何寻找超参数的最优值
应用深度学习领域在很大程度上是基于经验的过程。凭经验的过程通俗来说就是不断调参直到找到合适的数值。