当前位置: 首页 > news >正文

网站有版权吗写网站建设的论文

网站有版权吗,写网站建设的论文,通化市城乡建设局网站,网站建设中图片电话摘要#xff1a;如果你是一名单身狗#xff0c;不要伤心#xff0c;或许是因为你的记忆太好了。有时#xff0c;遗忘是件好事#xff0c;它让你对琐碎之事不再斤斤计较。然而每当自己记不住单词而“问候亲人”时#xff0c;也确实气死个人。于是你懂得了如何控制好什么信… 摘要如果你是一名单身狗不要伤心或许是因为你的记忆太好了。有时遗忘是件好事它让你对琐碎之事不再斤斤计较。然而每当自己记不住单词而“问候亲人”时也确实气死个人。于是你懂得了如何控制好什么信息该保留什么信息该遗忘。而长短期记忆网络LSTM就是这么干的。来看看是怎么回事吧【版权声明】转载请注明出处和作者署名。否则作者和云栖社区有权追究责任。系列文章一入侯门“深”似海深度学习深几许深度学习入门系列之一人工“碳”索意犹尽智能“硅”来未可知深度学习入门系列之二神经网络不胜语 M-P模型似可寻深度学习入门系列之三“机器学习”三重门“中庸之道”趋若人深度学习入门系列之四深度学习入门系列用白话文的方式让你看得懂学的快第五章损失函数减肥用神经网络调权重深度学习入门系列之六山重水复疑无路最快下降问梯度深度学习入门系列之七深度学习入门系列用白话文的方式让你看得懂学的快第八章全面连接困何处卷积网络见解深深度学习入门系列之九卷地风来忽吹散积得飘零美如画深度学习入门系列之十局部连接来减参权值共享肩并肩深度学习入门系列之十一激活引入非线性池化预防过拟合深度学习入门系列之十二循环递归RNN序列建模套路深深度学习入门系列之十三14.1 遗忘是件好事还是坏事        如果我问你遗忘是件好事还是坏事       或许你会说当然是件坏事啊我可羡慕记忆力好的人了。       可我要告诉你如果你到现在还记得两岁时隔壁家的小女孩“横刀夺爱”抢了你的棒棒糖估计你现在还可能单身。如此“记”仇的人不孤独也难啊       的确有时候遗忘是好事它会让大脑清理无用“内存”让你能得以重新起航。其实从脑科学的角度来看记忆是一种生物运算它需要消耗能量的。从进化论的角度来看如果大脑一直长时间运算着用不着的“子程序”是极不经济的。在物资并不丰裕的远古时代这样的生物会被“物竞天择”掉的因此遗忘在某种程度上是生物的一种自我保护机制。       那遗忘是件好事咯或许你会问。       如果是好事为什么当年背几个英文单词都要绞尽脑汁家人还不得不都无辜地“光荣”一大半Bus(爸死)、Yes(爷死)、Nice奶死都Cheese气死。       嗯是的。过犹都不及。我们既需要记忆也需要遗忘。我们既需要短期记忆(short-term memory)必要时还要将这些短记忆拉长long short-term memory留存下来以备后用。       聪慧如你一定猜到了。我要引入本章的主题长短期记忆(Long Short-Term Memory简称LSTM)。这个名字有点怪难道是又长又短的记忆当然不是请注意“Short-term”中间有一个短横线“-”连接。这表明在本质上LSTM还是短期记忆(short-term memory)只是它历经的时序较长而已。14.2 施密德胡伯是何人        “LSTM”名称很拗口啊为了记忆我把它记做“老L师S太T忙M”。如果于尔根•施密德胡伯Jürgen Schmidhuber知道我这么玩笑地称呼他的“宝贝”会不会怼我啊       施密德胡伯名字太长以下简称“胡伯”又是何许人也他可来头不小。我们常说深度学习有三大巨头约书亚•本吉奥Yoshua Bengio、扬•勒丘恩Yann LeCun又译作“严乐春”和杰弗里•辛顿Geoffrey Hinton。如果把“三大巨头”扩展为“四大天王”的话这位胡伯应可入围。论开创性贡献他也算得上深度学习的先驱人物之一。其中他最杰出的贡献莫过于他于1997年和Hochreiter合作提出的LSTM[1]。因此胡伯也被尊称为“LSTM之父”。      在前面之所以我会问胡伯会不会怼我并不是说他真的会怼一个无名小辈。而是想说这位老伯本领大脾气也大啊。       有例为证。2015年前面提及的深度学习三巨头在著名学术期刊《Nature》上发表了一篇《Deep Learning》综述[2]随后胡伯就站出来指责你们没有充分肯定自己工作的价值。而综述第一作者严乐春亦不甘示弱随后霸气发文反驳你丫就值这么多。       有道是有人的地方就有江湖。有江湖的地方就有纷争。       还有一例值得说道一下。近几年由伊恩•古德费勒Ian Goodfellow等人提出“生成对抗网络”Generative Adversarial NetworksGANs在人工智能领域非常火爆可称为非监督深度学习的典范之作。这位“好小伙Goodfellow”又是谁呢他就是深度学习三巨头之一的本吉奥Bengio的博士生现就职于谷歌的人工智能团队。严乐春对GAN交口称赞称其为“20年来机器学习领域最酷的想法”。 图14-1 胡伯与好小伙Goodfellow真情互怼        可有人不这么看。2016年12月在知名的NIPS(Neural Information Processing Systems)大会上Goodfellow正在做关于GAN的培训宣讲就发生了尴尬的一幕。不待Goodfellow台上讲完有位听众就迫不及待站起来说自己在1992年提出了一个叫做Predictability Minimization可预测性最小化简称 PM的模型[4]说它如何有效工作然后话锋一转问台上的Goodfellow“你觉不觉得我的这个PM跟你的GAN有没有什么类似之处啊”       来者不善善者不来。这个来者就是前面提到的胡伯。1987年出生的好小伙Goodfellow初生牛犊不怕虎当时就有点火大和胡伯怼上了。为何Goodfellow会恼火原因很简单因为 胡伯的言外之意就是你丫的创新并不新鲜不过是拾我20多年之牙慧罢了。       在这里我之所以会这么花点笔墨来说胡伯的故事原因有二第一他是本章议题LSTM的提出者。二是想介绍一个“二元学习”的方法论。严伯钧老师曾说如果你没有太多精力但又想快速建立对一个新领域的感觉那么最好的办法就是使用“二元学习法”。具体来说就是找到两位这个领域的代表性人物最好是针锋相对的代表人物高手对决精彩就会纷呈。比如说在古典音乐领域听到莫扎特的音乐就该去找贝多芬的经典欣赏一下在经济学领域看到凯恩斯的著作就该去找哈耶克的书看看。再比如如果你想了解Goodfellow的GAN也该找找胡伯的PM模型了解一番。14.3 为什么需要LSTM?        言归正传让我们回到LSTM的讨论上。近年来循环神经网络RNN在很多自然语言处理项目中取得突破。如果光靠第一代的RNN功力自然是办不到的。我们知道传统RNN多采用反向传播时间BPTT算法。这种算法的弊端在于随着时间的流逝网络层数的增多会产生梯度消失或梯度爆炸等问题。       “梯度消失”说的是如果梯度较小的话1多层迭代以后指数相乘梯度很快就会下降到对调参几乎就没有影响了。想一想(0.99)^100是不是趋近于0       “梯度爆炸”说的是反过来如果梯度较大的话1多层迭代以后又导致了梯度大的不得了。想一想(1.01)^100是不是也很大       权重爆炸可能引起权重振荡。梯度消失又导致网络调参失去方向感。这些场景都会让BPTT望“参”兴叹。于是它在呼唤一个新的策略让RNN复活。       这个策略就是胡伯在1997年提出的Long Short-Term MemoryLSTM。由于独特的设计结构LSTM特别适合于处理时序间隔和延迟非常长的任务而且性能奇佳。比如说2009年用改进版LSTM赢过ICDAR手写识别比赛冠军。再后来2014年Bengio团队提出了一种更加好用的LSTM变体GRU (Gated Recurrent Unit门控环单元) [6]从而使得RNN的应用如洪水泛滥一发不可收拾。2016年谷歌公司利用LSTM来做语音识别和文字翻译[7]。同年苹果公司使用LSTM来优化Siri应用[8]。作为非线性模型LSTM非常适合于构造更大型深度神经网络。下面我们就来剖析一下LSTM结构。14.4 拆解LSTM 14.4.1 传统RNN的问题所在       只有定位好问题所在才能找到机会解决问题。因此在讲解LSTM原理之间让我们首先重温一下第一代RNN的问题所在。       让我们考察一下在原始RNN隐层中的神经元它只有一个状态记为h它对短期输入非常敏感。在第13章中我们已说明RNN可利用历史信息或说上下文信息把过去的输出再次循环作为输入从而可达到更好的预测效果。比如说“天空中飞来一只__”这个句子比较短对于RNN来说构建的网络层数比较浅因此我们可以充分利用历史信息能以较大概率来预测空白区可能是“鸟”或“蜻蜓”之类的飞行动物。 图14-2 上下文较长无法利用历史信息        但是如果我们再接着预测如下句子的空白处句子为“我在中国北京长大我兄弟5人我哥叫牛A我还有三个弟弟分别叫牛C、牛D和牛F我排名老二因此大家都叫我牛B我们都能说一口流利的__”。距离空白处最近的信息提示我们该处可能要预测一个语言名称。       但世界上的语言上百种如果我们想缩小语言名称的范围自然需要利用这个词的上下文信息但我们很快就会发现关键词“中国北京”距离“说一口流利的__”这个词汇之间距离太过遥远。的确我们也可把RNN的结构做深一点但限于前文提到的缺点如梯度弥散等问题前面网络层的信息如x0、x1..., 等“流淌”到当前层有用的信息已所剩无几。或者说过去的信息已经被抛弃“遗忘”了。有时这样有用但又为抛弃的神经单元也称为泄漏单元leaky unit。14.4.2 改造的神经元       从上面的分析可知第一代RNN的问题出在神经元的功能不健全上它把该记住的遗忘了又把该遗忘的记住了。那如何来改造它呢这个时候就要体现胡伯提出的LSTM的工作了。LSTM的核心本质在于通过引入巧妙的可控自循环以产生让梯度能够得以长时间可持续流动的路径 。       假如我们在原有神经元的基础上再增加一个状态即c让它“合理地”保存长期的状态不就解决问题了吗其结构如图14-3所示. 图14-3 调整神经的功能        假设新增加的状态c称为记忆单元态(cell state)亦称为“记忆块memory block”用以取代传统的隐含神经元节点。它负责把记忆信息从序列的初始位置传递到序列的末端。下面我们把图14-3按照时间步展开得到如图14-4所示的示意图。 图14-4 按时间步展开的RNN网络        从示意图14-4可看出在LSTM结构中在t时刻当前神经元粗红线标识的输入有三个当前时刻输入值xt、前一时刻输出值st−1和前一时刻的记忆单元状态ct−1。输出有两个当前时刻LSTM输出值st和当前时刻的记忆单元状态ct。需要注意的是这里的xs和c都是向量里面都包含多个参数值。       现在LSTM关键之处来了那就是如何有效控制这个长期状态c而为我所用呢这里LSTM的设计思路是设计3把控制门开关gate从而打造一个可控记忆神经元如图14-5所示。 图14-5 长期状态c的控制门的三把开关        这第一把门开关就是负责决定把前一个长期记忆ct−1在多大程度上保留到ct中它可选择性地遗忘部分之前积累的信息第二把门开关就是负责控制以多大程度把当前即时状态存入到长期记忆状态ct中第三把开关负责控制是否把长期状态c作为当前LSTM的输出。有了这三把好用的开关记忆就如是酒保手中的酒是“勾兑”可调的。       接下来让我们要聊聊在记忆单元中内部状态c和输出s是如何计算的。14.5 LSTM的前向计算       前文描述的门开关实际上是一个比喻。在真正的算法中哪有什么所谓的“开关”这里的“门开关”实际上就是一个全连接网络层它的输入是一个复杂的矩阵向量而输出是一个0到1之间的实数向量。请注意由于“门”和“层”的关系是一个是比喻一个是实现所以后文中我们可能混搭表述。       LSTM实际上通过调控某些全连接层网络参数来达到调控输出的目的。如果输出可控那么“门”的开和关就可以模拟出来了。       假设W是门的权重向量b为偏置向量这个“门”可表示为公式14-1。        这里激活函数σ可用挤压函数sigmoid函数的输出来控制门的开与关。由于sigmoid函数的值域被控制在0和1之间。那么激活函数输出为0时任何向量与之相乘结果为0这就相当于“门”关上了那如果输出为1时任何向量与之相乘都不会改变这就相当于“门”完全开启。当输出值在0至1之间呢这相当于门是半掩半开的就可以调控“记忆”的留存程度。      还记得吗在第13章中我们说过人们通常都不具备“马尔科夫链思维”言外之意就是说我们当前的内心感受都是历史的投射和当下的输入叠加在一起的结果。这就好比一个场景“一巴掌挨在脸上当前输入新仇旧恨涌上心头历史记忆”。      类似地LSTM也设计两个门控制记忆单元状态c的信息量一个是遗忘门forget gate。所谓的“遗忘”也就是“记忆的残缺”。它决定了上一时刻的单元状态有多少“记忆”可以保留到当前时刻另一个是输入门input gate它决定了当前时刻的输入有多少保存到单元状态。      在图14-5中我们说过LSTM是由三个门来实现的。实际上为了表述方便很多文献还添加了一个门叫候选门Candidate gate它控制着以多大比例融合“历史”信息和“当下”刺激。      最后LSTM还设计了一个输出门output gate来来控制单元状态有多少信息输出。下面对这4个门分别进行详细介绍。14.5.1 遗忘门        如前所述遗忘门的目的在于控制从前面的记忆中丢弃多少信息或者说要继承过往多大程度的记忆。以音乐个性化推荐为例[9]用户对某位歌手或某个流派的歌曲感兴趣那么诸如“点赞”、“转发”和“收藏”等这样的正向操作作为“记忆”就需要得到加强换句话说就需要遗忘得少点。反之如果发生了删除、取消点赞或收藏等这类负向操作对于推荐功能来说它的信息就应该被“遗忘”得多一些。       遗忘门可通过公式14-2所示的激活函数来实现。        在公式14-2中σ表示激活函数这里通常为sigmoid。WTf表示遗忘门权重矩阵UTf是遗忘门输入层与隐层之间的权重矩阵bf表示遗忘门的偏置这里的下标f是“遗忘forget”的首字母为了增强可读性而已下同。       从公式14-2可看出遗忘门是通过将前一隐层的输出st−1与当前的输入xt进行了线性组合然后利用激活函数将其输出值压缩到0到1的区间之内。当输出值越靠近1表明记忆体cell block保留的信息就越多。反之越靠近0表明保留的就越少。记忆门的工作过程可用图14-6表示。 图14-6 遗忘门逻辑设计        输入门的作用在于它决定了当前时刻的输入信息xt以多大程度添加至记忆信息流中它的计算公式几乎和遗忘门完全一致除了下标和标识不同外激活函数σ也使用sigmoid如公式14-3所示。        由于和遗忘门功能类似因此它们的示意图也是类似的结合遗忘门在一起如图14-7所示。 图14-7 输入门逻辑设计 14.5.3 候选门        候选门它可视为一个“勾兑门”它主要负责“勾兑”当前输入信息和过去记忆信息也就是候选门负责计算当前输入的单元状态 如公式14-4所示。        在这里激活函数换成了tanh它可以把输出值规整到-1和1之间。示意图如图14-8所示。 图14-8 计算LSTM的内部的候选门 图14-9为输入门与候选门的组合示意图。 图14-9 输入门与候选门的组合示意图        现在我们来小结一下遗忘门和输入门的作用。由于遗忘门的存在它可以控制保存多久之前的信息。由于输入门的存在它又可以避免当前无关紧要的内容进入到记忆当中。这样一来该忘记的把它遗忘该记住的把它记牢二者相得益彰。14.5.4 输出门        内部的记忆状态更新完毕之后下面就要决定是不是输出了。输出门的作用在于它控制着有多少记忆可以用于下一层网络的更新中。输出门的计算可用公式14-6表示。        这里激活函数依然是用sigmoid。通过前面的介绍可知sigmoid会把 Ot规则化为一个0到1之间权重值。       有道是“话不能说得太满满了难以圆通调不能定得太高高了难以合声”。这里的输出也需要“悠着点”不能太“任性”的输出因此还要用激活函数tanh把记忆值变换一下将其变换为-1至1之间的数。负值区间表示不但不能输出还得压制一点正数区间表示合理的输出。这样有张有弛方得始终。最终输出门的公式如14-7所示。        最后结合前面的门路设计完整的记忆神经元如图14-10所示。 图 14-10 LSTM隐层单元的完整逻辑设计        到此为止我们剖析了LSTM网络的标准设计流程。但请注意这并不是唯一的设计方式。事实上很多文献都会对标准的设计流程有所变更。比如说Chung等人提出的门控循环单元Gated Recurrent Unit, GRU[10]就是其中的佼佼者。GRU在LSTM的基础上进行了简化它主要做了连个方面的改造1提出了更新门的概念也就是把输入门和遗忘门合并。2把记忆单元Ct和隐层单元st实施了统一。模型的简化就意味运算上的简化调参上的便捷。特别是在训练数据很大的情况下GRU能节省更多时间从而更能为用户所接受。14.6 LSTM训练       前面我们花了大量的篇幅讨论了LSTM的结构实际上只是讨论了它的前向传播工作原理事实上我们还缺一个LSTM训练算法框架来调整网络参数。LSTM的参数训练算法依然是我们熟悉的反向传播算法。对于这类反向传播算法它们遵循的流程都是类似简单说来主要有如下三个步骤1前向计算每个神经元的输出值。对于LSTM而言依据前面介绍的流程按部就班地分别计算出ftitctot和st。2确定优化目标函数。在训练早期输出值和预期值会不一致于是可计算每个神经元的误差项值借此构造出损失函数。3根据损失函数的梯度指引更新网络权值参数。与传统RNN类似LSTM误差项的反向传播包括两个层面一个是空间上层面的将误差项向网络的上一层传播。另一个是时间层面上的沿时间反向传播即从当前t时刻开始计算每个时刻的误差。然后跳转第1步重新做1、2和3步直至网络误差小于给定值。这里限于篇幅我们没有给出详细的求导过程感兴趣的读者推荐阅读胡伯的开创新性论文[1]和两篇非常优秀的英文博客 [11]国内大部分介绍LSTM的网络文章都或多或少第借鉴了这篇经典博客和[12]里面有详细的LSTM的前向和后向传播的详细推导过程。14.7 小结与思考       现在我们小结一下本章主要内容。由于传统的RNN存在梯度弥散问题或梯度爆炸问题导致第一代RNN基本上很难把层数提上去因此其表征能力也非常有限应用上性能也有所欠缺。于是胡伯提出了LSTM通过改造神经元添加了遗忘门、输入门和输出门等结构让梯度能够长时间的在路径上流动从而有效提升深度RNN的性能。通过本章的学习请你思考如下问题1LSTM是如何避免梯度弥散的它都使用了那些手段2根据“无免费午餐原理No free lunch theorem”在任何一个方面的性能提升都是以牺牲另一个方面性能为代价的请问LSTM付出的代价或者说缺点又是什么14.8 致谢       由于工作较为繁忙加之每篇博客都耗时不菲从构思、查阅资料、撰写和绘图每一篇文章都得花上好几天。因此关于深度学习的入门系列到本章为止暂时不再更新或者说第一季结束。感谢读者朋友这几个月的捧场阅读。       博客能写到14章首先要感谢云栖社区的支持特别是阿里云张勇老师的关照花名身行网名我是主题曲哥哥感谢他“容忍”我天马行空的写作风格。自然也得感谢很多论文和网络资源的提供者没有你们的先行探路这个系列博客我也是写不出来的。       这个系列博客文章会集结成书原因是博客文章有如下三个不足暂时没有办法弥补。1博客内浅尝辄止。为了迎合读者的碎片化阅读习惯每篇博客都尽可能精简。读者看到每篇博客基本上都是原文的阉割版。比如说很多公式就难以给出详细推导过程。2博客范围覆盖不全。虽然更新到第14篇但深度学习博大精深很多内容还没有涉及。比如说Dropout、深度信念网络、生成对抗网络等有价值的内容都没有讲。3博客没有实战环节。目前博客文章仅涉及理论入门实战环节如Theano、Caffe及TensorFlow等一概没有提及。       其实还有第4个原因有点私心吧。那就是出书多少能挣点稿费以补贴我付出的时间和精力。如果读者认可我的工作并手头宽裕的话希望你到时能赏光买一本。       书名暂定《品味深度学习》。如果你有更好的题目不妨给个建议。       出版社暂时未定联系邮件zhangyuhong001gmail.com。       出版时间争取2017年内。参考文献 [1] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735.[2] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):436-444.[3] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014:2672-2680.[4] Schmidhuber J. Learning Factorial Codes by Predictability Minimization[J]. Neural Computation, 1992, 4(6):863-879.[5] Liwicki, Fernandez, Bertolami, et al. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition[J]. Physics Letters B, 2008, 450(4):332-338.[6] Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.[7] Wu Y, Schuster M, Chen Z, et al. Googles Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. 2016.[8] Smith, Chris (2016-06-13). iOS 10: Siri now works in third-party apps, comes with extra AI features. BGR. Retrieved 2017-06-27.[9] 黄安埠. 深入浅出深度学习.中国工信出版社.2017.6[10] Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.[11] Colah. Understanding LSTM Networks,2015[12] Arun. LSTM Forward and Backward Pass文章作者张玉宏著有《品味大数据》一书审校我是主题曲哥哥。更新完毕
http://wiki.neutronadmin.com/news/25683/

相关文章:

  • 石家庄手机建网站做剧情游戏的网站
  • 怎么做网站策划的模板聊天软件
  • 临沂网站建设报价新余网站建设公司
  • 厦门网站建设是什么意思网站头部通用代码
  • 无锡网站seo报价wordpress form 高度
  • 三网合一网站建设费用做网站每个月可以赚多少
  • 辽宁智能网站建设价位简述什么是seo及seo的作用
  • 口碑好的昆明网站建设岳阳网站平台设计
  • 成品ppt的网站免费观看网站建设和开发
  • 个人做网站平台免费下wordpress
  • 北京网站建设正邦绍兴seo全网营销
  • 番禺网站设计公司公司内部网站建设
  • 微网站开发价格中小企业网络营销
  • 公司想做个网站怎么办外贸展示网站多少钱
  • 做色流网站要注意什么地方百度框架户一级代理商
  • 公司网站开发建设什么会计科目网站建设的目的包含哪些方面
  • 死链接对网站的危害有哪些营销型网站四大功能
  • 仿牌网站 域名注册惠州网站建设怎么样
  • 网站移动转换网站费做进什么科目
  • 吴忠门户网站建设网站后台html模板
  • 公司网站设计定制做企业网站需要买什么
  • 好的网站制作平台中文域名可以做网站吗
  • 做教育网站多少钱湘潭网站建设 x磐石网络
  • 南昌网站建设模板下载网址南宁网站制作公
  • 制作化妆品网站好听罕见绝不重名的公司名称
  • 垂直行业门户网站如何建设平台型的网站
  • 免费收录网站大全用wordpress建一个网站吗
  • 做的最好的本地生活网站湛江专业网站建设公司
  • 唐山专业网站建设公司网站开发 网页上传 网页制作
  • 网站优化怎样提高网站用户体验有了域名空间怎么做网站