当前位置：首页 > news >正文

加强企业网站建设作用郑州百姓网免费发布信息网

news 2025/12/27 14:51:03

加强企业网站建设作用,郑州百姓网免费发布信息网,深圳的网站建设公司pestl分析,有限公司注册资金多少有什么区别来源#xff1a;机器之心概要#xff1a;想知道哪些深度学习技术即将影响我们的未来吗#xff1f;本文将给你作出解答。2017 年只剩不到十天#xff0c;随着 NIPS 等重要会议的结束#xff0c;是时候对这一年深度学习领域的重要研究与进展进行总结了。来自机器学习创业公司… 来源机器之心概要想知道哪些深度学习技术即将影响我们的未来吗本文将给你作出解答。2017 年只剩不到十天随着 NIPS 等重要会议的结束是时候对这一年深度学习领域的重要研究与进展进行总结了。来自机器学习创业公司的 Eduard Tyantov 最近就为我们整理了这样一份列表。想知道哪些深度学习技术即将影响我们的未来吗本文将给你作出解答。1. 文本1.1 谷歌神经机器翻译去年谷歌宣布上线 Google Translate 的新模型并详细介绍了所使用的网络架构——循环神经网络RNN。关键结果与人类翻译准确率的差距缩小了 55-85%研究者使用 6 个语言对的评估结果。但是该模型如果没有谷歌的大型数据集则很难复现这么优秀的结果。1.2 谈判会达成吗你或许听说过「Facebook 因为聊天机器人失控、创造自己语言而关闭聊天机器人」的消息。这个机器人是用来进行谈判的其目的是与另一个智能体进行文本谈判然后达成协议如何把物品书籍、帽子等分成两份。谈判中每个智能体都有自己的目标而对方并不知道。谈判不可能出现未达成协议的情况。研究者在训练过程中收集人类谈判的数据集训练监督式循环网络。然后让用强化学习训练出的智能体自己与自己交流直到获得与人类相似的谈判模式。该机器人学会了一种真正的谈判策略——对某个交易的特定方面假装产生兴趣然后再放弃它们以达到真实目标。这是第一次尝试此类互动机器人而且也比较成功。当然称该机器人创造了一种新语言的说法过于夸张了。和同一个智能体进行谈判的训练过程中研究者无法限制文本与人类语言的相似度然后算法修改了互动语言。这是很寻常的事。2. 语音2.1 WaveNet一种针对原始语音的生成模型DeepMind 的研究者基于先前的图像生成方法构建了一种自回归全卷积模型 WaveNet。该模型是完全概率的和自回归的fully probabilistic and autoregressive其每一个音频样本的预测分布的前提是所有先前的样本不过研究表明它可以有效地在每秒音频带有数万个样本的数据上进行训练。当被应用于文本转语音时它可以得到当前最佳的表现人类听众评价它在英语和汉语上比当前最好的参数parametric和拼接concatenative系统所生成的音频听起来都显著更为自然。单个 WaveNet 就可以以同等的保真度捕获许多不同说话者的特点而且可以通过调节说话者身份来在它们之间切换。当训练该模型对音乐建模时我们发现它可以生成全新的、而且往往具有高度真实感的音乐片段。该研究还证明其可以被用作判别模型可以为音速识别phoneme recognition返回很有希望的结果。该网络以端到端的方式进行训练文本作为输入音频作为输出。研究者得到了非常好的结果机器合成语音水平与人类差距缩小 50%。该网络的主要缺陷是低生产力因为它使用自回归声音按序列生成需要 1-2 分钟的时间才能生成一秒音频。2.2 唇读唇读lipreading是指根据说话人的嘴唇运动解码出文本的任务。传统的方法是将该问题分成两步解决设计或学习视觉特征、以及预测。最近的深度唇读方法是可以端到端训练的Wand et al., 2016; Chung Zisserman, 2016a。目前唇读的准确度已经超过了人类。Google DeepMind 与牛津大学合作的一篇论文《Lip Reading Sentences in the Wild》介绍了他们的模型经过电视数据集的训练后性能超越 BBC 的专业唇读者。该数据集包含 10 万个音频、视频语句。音频模型LSTM视频模型CNN LSTM。这两个状态向量被馈送至最后的 LSTM然后生成结果字符。训练过程中使用不同类型的输入数据音频、视频、音频视频。即这是一个「多渠道」模型。2.3 人工合成奥巴马嘴唇动作和音频的同步华盛顿大学进行了一项研究生成美国前总统奥巴马的嘴唇动作。选择奥巴马的原因在于网络上有他大量的视频17 小时高清视频。研究者使用了一些技巧来改善该研究的效果。3. 计算机视觉3.1. OCR谷歌地图与街景谷歌大脑团队在其文章中报道了如何把新的 OCR光学字符识别引擎引入其地图中进而可以识别街头的标志与商标。在该技术的发展过程中谷歌还给出了新的 FSNSFrench Street Name Signs它包含了大量的复杂案例。为了识别标志网络最多使用 4 张图片。特征通过 CNN 提取在空间注意力考虑像素坐标的帮助下缩放最后结果被馈送至 LSTM。相同方法被用于识别广告牌上店铺名称的任务上存在大量噪音数据网络本身必须关注正确的位置。这一算法被应用到 800 亿张图片之上。3.2 视觉推理视觉推理指的是让神经网络回答根据照片提出的问题。例如「照片中有和黄色的金属圆柱的尺寸相同的橡胶物体吗」这样的问题对于机器是很困难的直到最近这类问题的回答准确率才达到了 68.5%。为了更深入地探索视觉推理的思想并测试这种能力能否轻松加入目前已有的系统DeepMind 的研究者们开发了一种简单、即插即用的 RN 模块它可以加载到目前已有的神经网络架构中。具备 RN 模块的神经网络具有处理非结构化输入的能力如一张图片或一组语句同时推理出事物其后隐藏的关系。使用 RN 的网络可以处理桌子上的各种形状球体、立方体等物体组成的场景。为了理解这些物体之间的关系如球体的体积大于立方体神经网络必须从图像中解析非结构化的像素流找出哪些数据代表物体。在训练时没有人明确告诉网络哪些是真正的物体它必须自己试图理解并将这些物体识别为不同类别如球体和立方体随后通过 RN 模块对它们进行比较并建立「关系」如球体大于立方体。这些关系不是硬编码的而是必须由 RN 学习——这一模块会比较所有可能性。最后系统将所有这些关系相加以产生场景中对所有形状对的输出。目前的机器学习系统在 CLEVR 上标准问题架构上的回答成功率为 68.5%而人类的准确率为 92.5%。但是使用了 RN 增强的神经网络DeepMind 展示了超越人类表现的 95.5% 的准确率。RN 增强网络在 20 个 bAbI 任务中的 18 个上得分均超过 95与现有的最先进的模型相当。值得注意的是具有 RN 模块的模型在某些任务上的得分具有优势如归纳类问题而已有模型则表现不佳。下图为视觉问答的架构。问题在经过 LSTM 处理后产生一个问题嵌入question embedding而图像被一个 CNN 处理后产生一组可用于 RN 的物体。物体图中用黄色、红色和蓝色表示是在卷积处理后的图像上使用特征图向量构建的。该 RN 网络会根据问题嵌入来考虑所有物体对之间的关系然后会整合所有这些关系来回答问题。3.3 Pix2Code哥本哈根的一家初创公司 UIzard Technologies 训练了一个神经网络能够把图形用户界面的截图转译成代码行成功为开发者们分担了部分网站设计流程。令人惊叹的是同一个模型能跨平台工作包括 iOS、Android 和 Web 界面从目前的研发水平来看该算法的准确率达到了 77%。为了实现这一点研究者们需要分三个步骤来训练首先通过计算机视觉来理解 GUI 图像和里面的元素按钮、条框等。接下来模型需要理解计算机代码并且能生成在句法上和语义上都正确的样本。最后的挑战是把之前的两步联系起来需要它用推测场景来生成描述文本。虽然该工作展示了这样一种能自动生成 GUI 代码的潜力系统但该研究只是开发了这种潜力的皮毛。目前的 Pix2Code 模型由相对较少的参数组成并且只能在相对较小的数据集上训练。而构建更复杂的模型并在更大的数据集上训练会显著地提升代码生成的质量。并且采用各种正则化方法和实现注意力机制attention mechanism [1]也能进一步提升生成代码的质量。同时该模型采用的独热编码one-hot encoding并不会提供任何符号间关系的信息而采用 word2vec [12] 那样的词嵌入模型可能会有所好转。因此将图片转换为 UI 代码的工作仍处于研究之中目前尚未投入实际使用。项目地址https://github.com/tonybeltramelli/pix2code3.4 SketchRNN教机器画画你可能看过谷歌的 Quick, Draw! 数据集其目标是 20 秒内绘制不同物体的简笔画。谷歌收集该数据集的目的是教神经网络画画。研究者使用 RNN 训练序列到序列的变分自编码器VAE作为编解码机制。最终该模型获取表示原始图像的隐向量latent vector。解码器可从该向量中提取图画你可以改变它生成新的简笔画。甚至使用向量算术来绘制猫猪catpig3.5 GANGAN 是深度学习领域里的一个热门话题。目前这种方法大多用于处理图像所以本文也主要介绍这一方面。GAN 的全称为生成对抗网络是 2014 年由 Ian Goodfellow 及其蒙特利尔大学的同事们率先提出的。这是一种学习数据的基本分布的全新方法让生成出的人工对象可以和真实对象之间达到惊人的相似度。GAN 背后的思想非常直观生成器和鉴别器两个网络彼此博弈。生成器的目标是生成一个对象比如人的照片并使其看起来和真的一样。而鉴别器的目标就是找到生成出的结果和真实图像之间的差异。鉴别器通常会从数据集中给出图像用于对比。由于很难找出两个网络之间的平衡点训练通常难以连续进行。大多数情况下鉴别器会获胜训练陷入停滞。尽管如此由于鉴别器的设计可以帮助我们从损失函数设定这样的复杂问题中解决出来例如提升图片质量所以 GAN 获得了众多研究者的青睐。典型的 GAN 训练结果——卧室和人脸。在此之前我们通常会考虑使用自编码器Sketch-RNN让其将原始数据编码成隐藏表示。这和 GAN 中生成器所做的事情一样。你可以在这个项目中http://carpedm20.github.io/faces/找到使用向量生成图片的方法。你可以自行尝试调整向量看看生成的人脸会如何变化。这种算法在隐空间上同样适用「一个戴眼镜的男人」减去「男人」加上「女人」就等于「一个戴眼镜的女人」。3.6 使用 GAN 改变面部年龄如果在训练过程中获得一个可控制的隐向量参数我们就可以在推断阶段修改这个向量以控制图像的生成属性这种方法被称为条件 GAN。论文 Face Aging With Conditional Generative Adversarial Networks 的作者使用在 IMDB 数据集上预训练模型而获得年龄的预测方法然后研究者基于条件 GAN 修改生成图像的面部年龄。3.7 专业摄影作品谷歌已经开发了另一个非常有意思的 GAN 应用即摄影作品的选择和改进。开发者在专业摄影作品数据集上训练 GAN其中生成器试图改进照片的表现力如更好的拍摄参数和减少对滤镜的依赖等判别器用于区分「改进」的照片和真实的作品。训练后的算法会通过 Google Street View 搜索最佳构图获得了一些专业级的和半专业级的作品评分。3.8 pix2pix伯克利人工智能研究室BAIR在 2016 年非常引人注目的研究 Image-to-Image Translation with Conditional Adversarial Networks 中研究人员解决了图像到图像的生成问题。例如需要使用卫星图像创建地图或使用素描创建逼真的目标纹理等。这里有另一个非常成功的条件 GAN 应用案例。在该情况下条件将变为整张图像。此外UNet 在图像分割中十分受欢迎经常用于生成器的体系结构且该论文使用了新型 PatchGAN 分类器作为处理模糊图像的判别器。该论文的作者还发布了他们网络的在线演示https://affinelayer.com/pixsrv/源代码https://github.com/phillipi/pix2pix3.9 CycleGAN为了应用 Pix2Pix我们需要包含了不同领域图像对的数据集。收集这样的数据集并不困难但对于更复杂一点的转换目标或风格化目标等操作原则上是找不到这样的目标对。因此Pix2Pix 的作者为了解决这样的问题提出了在不同图像领域之间转换而不需要特定图像对的 CycleGAN 模型原论文为《Unpaired Image-to-Image Translation》。该论文的主要想法是训练两对生成器-判别器模型以将图像从一个领域转换为另一个领域在这过程中我们要求循环一致性。即在序列地应用生成器后我们应该得到一个相似于原始 L1 损失的图像。因此我们需要一个循环损失函数cyclic loss它能确保生成器不会将一个领域的图像转换到另一个和原始图像完全不相关的领域。这个方法允许我们学习将马映射到斑马。这样的转换通常是不稳定的并且经常创建一些不成功的案例源代码https://github.com/junyanz/CycleGAN3.10 肿瘤分子学的进展机器学习正在帮助改善医疗的手段它除了在超声波识别、MPI 和诊断等方面的应用还能寻找对抗癌症的性药物。简单来说在对抗自编码器AAE的帮助下我们可以学习药物分子的潜在表征并用来搜索新的药物结构。该项研究中研究者发现了 69 个分子且有一半的分子可用来治疗癌症和其它一些比较严重的疾病。3.11 对抗性攻击对抗性样本这一领域也有非常大的活力研究者希望找到这种令模型不稳定的因素而提升识别性能。例如在 ImageNet 中训练的模型在识别加了一些噪点的样本会完全识别错误这样加了噪点的图像可能在我们人眼看来是没有问题的。这一问题展现在下图中熊猫的图像加了一点噪声就会被错误识别为长臂猿。Goodfellow et al. (2014b) 表明出现这些对抗样本的主要原因之一是模型过度线性化。神经网络主要是基于线性模块而构建的因此它们实现的整体函数被证明是高度线性的。虽然这些线性函数很容易优化但如果一个线性函数具有许多输入那么它的值可以非常迅速地改变。如果我们用 ϵ 改变每个输入那么权重为 w 的线性函数改变可以达到 ϵ∥w∥_1如果 w 的维度较高那么这会是一个非常大的数值。对抗训练通过鼓励网络在训练数据附近的局部区域恒定来限制这一高度敏感的局部线性行为。这可以被看作是一种明确地向监督神经网络引入局部恒定先验的方法。下面一个例子表示特殊的眼镜可以欺骗人脸识别系统所以在训练特定的模型时我们需要考虑这种对抗性攻击并使用对抗性样本提高模型的鲁棒性。这种使用符号的方法也不能被正确地识别。4 强化学习强化学习RL或使用了强化机制的学习也是机器学习中最有趣和发展活跃的方法之一。该方法的本质是在一个根据经验给予奖励正如人类的学习方式的环境中学习智能体的成功行为。RL 在游戏、机器人和系统控制例如交通中被广泛应用。当然每个人都已经听说了 AlphaGo 在游戏中击败过多个顶尖专业选手。研究者使用 RL 训练 AlphaGo 的过程是让机器通过自我对弈提升决策能力。4.1 结合非受控辅助任务的强化训练去年DeepMind 通过使用 DQN 玩电子游戏取得了超越人类的表现。最近人们已经开发出了能让机器玩更加复杂的游戏如 Doom的算法。大多数研究关注于学习加速因为学习智能体与环境交互的经验需要在现代 GPU 上执行很长时间的训练。DeepMind 的博客https://deepmind.com/blog/reinforcement-learning-unsupervised-auxiliary-tasks/中报告了引入附加损失辅助任务的办法例如预测帧变化像素控制使智能体更充分地理解动作的后果可以显著加快学习过程。4.2 学习机器人OpenAI 对在虚拟环境中训练智能体进行了积极的研究相比在现实世界中进行实验要安全得多。在其中一个研究中https://blog.openai.com/robots-that-learn/他们证明了一次性学习one-shot learning是可能实现的在 VR 中的一个人展示如何执行任务并且算法只需要一次展示就能学会然后在实际条件下将其重现。如果只有人类有这个能力就好了。4.3 学习人类的偏好这是 OpenAIhttps://blog.openai.com/deep-reinforcement-learning-from-human-preferences/和 DeepMind 都曾研究过的课题。基本目标是智能体有一个任务算法为人类提供两个可能的解决方案并指出那个更好。该过程需要重复迭代并且算法接收来自学习如何解决问题的人类的 900 比特大小的反馈二进制标记。一如既往人类必须谨慎判断思考他教给机器究竟是什么。例如评估器得出算法确实想要拿到某个物体但实际上人类只是想进行一次模拟实验。4.4 在复杂环境中的运动这是 DeepMind 的另一项研究https://deepmind.com/blog/producing-flexible-behaviours-simulated-environments/。为了教会机器人执行复杂的行为行走、跳跃等甚至达到类似人体的动作你需要非常重视损失函数的选择以获得想要的行为。然而让算法自身通过简单的奖励机制学习复杂的行为或许会有更好的效果。为了达到这个目标研究者通过构建一个包含障碍物的复杂环境教智能体人体模拟器执行复杂的动作结合简单的奖励机制提高动作质量。可以通过视频查看研究取得的令人印象深刻的结果。最后我给出 OpenAI 近日发布的应用强化学习的算法的链接https://github.com/openai/baselines。这个解决方案比标准的 DQN 方法更好。5 其它5.1 数据中心冷却系统在 2017 年 7 月谷歌报告称他们利用 DeepMind 的机器学习研究成果降低了数据中心的能耗。基于来自数据中心的几千个传感器的信息谷歌开发者训练一个神经网络集成预测能量利用效率PUE以及更高效的数据中心管理方法。这是机器学习中非常令人印象深刻和重要的实际应用案例。5.2 通用模型如你所知已训练模型的任务迁移性能很差因为每个模型都是为特定的任务而设计的。谷歌大脑的一篇论文https://arxiv.org/abs/1706.05137在通用模型的研究上跨出了一小步。研究者训练了一个模型可以执行 8 个不同领域文本、语音和图像的任务。例如不同语言的翻译、文本解析以及图像、语音识别。为了达到这个目的他们使用多种不同的模块构建了一个复杂的网络架构以处理不同的输入数据并生成结果。编码器/解码器模块包含三种类型卷积、注意和 MoEhttps://arxiv.org/abs/1701.06538。他们几乎得到了完美的模型作者并没有细调超参数。模型中存在不同领域知识的迁移即相比使用大量数据训练的任务无迁移该模型能获得几乎相同的性能。并且这个模型在小数据任务上表现得更好例如文本解析。不同任务所需的模块之间并不会互相干扰有时甚至能互相辅助例如MoE 可以辅助 ImageNet 图像识别任务。模型的 GitHub 地址https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/multimodel.py5.3. 一小时训练 ImageNetFacebook 在其博文中告诉我们其工程师能够用 1 小时的时间通过 Imagenet 教会 ResNet-50 模型不过其实现需要 256 块 GPU (Tesla P100)。他们通过 Gloo 和 Caffe2 实现分布式学习。为了更有效采用大批量的学习策略很有必要梯度平均、特定学习率等。结果当从 8 块 GPU 扩展到 256 块时效率可高达 90%。现在Facebook 可以更快地进行实验。6. 新闻6.1. 自动驾驶自动驾驶领域正密集地发展测试也在积极地开展。从最近事件中我们注意到英特尔收购 MobilEyeUber 从谷歌剽窃自动驾驶技术的丑闻以及首个自动驾驶死亡案例等等。这里我提醒一件事谷歌 Waymo 推出了 beta 版。谷歌是该领域的先驱者可以假定他们的技术很好因为其自动驾驶汽车里程已超过 300 万英里。更近的事件则有自动驾驶汽车已在美国所有州允许上路测试。6.2. 医疗就像我说的现代机器学习正开始应用于医疗。比如谷歌与某医疗中心展开合作提升诊断。DeepMind 甚至还为此成立了一个独立部门。在今年的 Data Science Bowl 上有一个奖金高达 100 万美元的竞赛根据标注图像预测一年之中的肺癌情况。6.3. 投资正如之前的大数据机器学习当下也涌入了大量资本。中国在 AI 领域的投资高达 1500 亿美元从而成为行业领导者之一。相比之下百度研究院拥有 1300 名员工而 Facebook FAIR 则只有 80 名。在今年闭幕的 KDD 2017 上阿里巴巴介绍了其参数服务器鲲鹏它带有万亿个参数并使得运行 1000 亿个样本成为常规任务。人工智能仍处于起步阶段入门学习机器学习永远不嫌晚。不管怎样所有开发者会慢慢用起机器学习这项技术会成为程序员的必备技能之一就像现在每个人都会使用数据库一样。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。由互联网进化论作者计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。如果您对实验室的研究感兴趣欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://wiki.neutronadmin.com/news/110971/