当前位置: 首页 > news >正文

高端网站官网山东省住房和城乡建设厅注册中心

高端网站官网,山东省住房和城乡建设厅注册中心,西安网站建设优化与推广,网站建设制作放之来源#xff1a;AI科技评论编译#xff1a;Mr Bear校对#xff1a;维克多DeepMind官方博客在一篇文章“Fast reinforcement learning through the composition of behaviours”中#xff0c;针对强化学习中的“从头学习”问题给予了解决方案。文章中表示#xff0c;人类处… 来源AI科技评论编译Mr Bear校对维克多DeepMind官方博客在一篇文章“Fast reinforcement learning through the composition of behaviours”中针对强化学习中的“从头学习”问题给予了解决方案。文章中表示人类处理一些新任务时候例如做菜往往能够利用之前学过的知识、技能。而强化学习中的智能体往往需要从头学习。针对上述挑战DeepMind的研究员们采用了一种名为“后继特征”特征的方案其效果是智能体可以将一个问题分解为更小的、更易于管理的子任务而不是将其作为一个单一的、整体的任务来处理。研究员在博客中表示其能够提供了一种学习灵活解决问题的新方法能够赋予 RL 智能体利用从之前的任务中学到的知识的能力。以下是原文AI科技评论做了不改变原意的编译。1智能的组合特性 对于人类而言一旦我们学会了烹饪的基本功当我们想要学做一道新菜时就并不需要从头学习如何切菜、削皮。然而在许多机器学习系统中智能体在遇到新的挑战时往往不得不完全从头开始学习。很明显人类学习的方式要比这种机器学习的方式高效得多人类可以组合之前学习到的能力。就像我们可以使用有限的单词词典将这些单词重新组合成有意义的句子。在自然界中当动物为了获取食物和其它的「奖励」而进行探索并与其环境进行交互时会产生一些学习行为。这也正是强化学习RL所遵循的学习范式与环境的交互会以最终得到的奖励或惩罚为依据强化或抑制某些特定行为。RL 的一个缺点是现在的 RL 方法需要大量的训练数据。例如为了训练AI“熟练”玩 Atari 游戏通常需要使用人类数星期在游戏中产生的数据。由 MIT和哈佛大学的研究人员进行的一项研究「Human Learning in Atari」表明在相同的情况下人类可以在仅仅玩了 15 分钟游戏后就可以达到与上述 RL 智能体相当的水平。造成这种现象的一种可能的原因是与人类不同RL 智能体面对新的任务时往往会从头开始学习。我们希望智能体能够利用从之前的任务中学到的知识从而更快地学习新的任务 。这就好比厨师会比没有做过菜的人更容易学做一道新菜。在近期于美国国家科学院院刊PNAS上发表的论文「Fast reinforcement learning with generalized policy updates」中来自 DeepMind 的研究人员展示了一种新的框架该框架旨在赋予 RL 智能体这种利用从之前的任务中学到的知识的能力。Fast reinforcement learning with generalized policy updateshttps://www.pnas.org/content/early/2020/08/13/19073701172 表征世界的两种方式本文将以「工作通勤」的例子说明这种 RL 方法。读者不妨想象以下的场景一个智能体每天需要从家里通勤到办公室它在上班路上经常会买一杯咖啡。如图 1 所示在智能体的家到办公室之间有两个咖啡店其中一家的咖啡非常棒但是路程较远另一家的咖啡马马虎虎但是路程较近。智能体会考虑咖啡的质量和它在某一天有多么赶时间选择着两条路径中的一条图 1 中黄色的路径和红色的路径。图 1工作通勤示意地图通常而言RL 算法可以被分为两大类「基于模型的智能体」和「模型无关的智能体」。如图 2 所示一个基于模型的智能体会构建关于环境的诸多层面的表征。此类智能体可能知道不同的地点之间的连接情况、每家咖啡店咖啡的质量以及任何我们认为与任务相关的信息。如图 3 所示模型无关的智能体对其环境的表征就要紧凑简单地多。例如基于值的模型无关智能体会为每一条可能的离开家的路线赋予一个相应的数值我们将该数值称为每条路线的「值」它反映了咖啡质量与通勤路线长度的具体权值。以图 1 中蓝色的路径为例假设此路径的长度为 4智能体沿此路径买到的咖啡评级为 3 星。如果智能体对通勤距离的关注程度比它对咖啡质量的关注程度高 50%则该路径的值为 (-1.5 x 4) (1 x 3) -3其中我们为距离赋予负的权值以此表示并不希望通勤距离更长。图 2基于模型的智能体表征世界的方式。与图 1 相比图 2 只包含与智能体相关的细节信息。然而这种模型使用的表征要比图 3 所示的模型无关的智能体使用的表征复杂得多。图 3模型无关的智能体表征世界的方式。智能体会为每个地点赋予一个与每一种可能的动作相对应的数值。该数值是智能体的每一种可选方案的「值」。在一个给定的地点中智能体会查看可以获得的值并仅仅基于该信息作出决策右图显示了在地点「家」处的决策情况。相对于基于模型的表征而言如图 2 所示此时信息是以一种非空间的方式存储的即地点之间没有连接。我们可以将咖啡质量和通勤距离的相对权值看做智能体的「偏好」。对于任意固定的偏好集合模型无关的智能体和基于模型的智能体将会选择同样的路线。那么既然最终的结果是相同的为什么我们还要使用对世界更复杂的表征例如基于模型的智能体使用的表征如果智能体最终喝到的咖啡是一样的为什么还要对环境进行大量的学习实际上偏好可能时刻都在变化在规划去买咖啡的路径时智能体可能会考虑他有多么饿或者他是否会在某个会议上迟到。模型无关的智能体处理该问题的方法是学习与每一组可能的偏好相对应的最佳路线。由于学习所有可能的偏好组合将会耗费大量的时间这种方式并不理想。如果与所有可能的偏好集合相对应的路线是无穷的我们也不可能对其进行学习。相较而言通过「想象」出所有可能的路线并且思考这些路线对当前倾向的满足程度基于模型的智能体可以在无需学习的条件下适应于任意偏好集合。首先「在思维中」生成并评估所有可能的动作轨迹是需要计算的。其次在复杂的环境下构建整个世界的模型可能是十分困难的。模型无关的智能体学习得更快但是对于环境变化较为脆弱。基于模型的智能体更加灵活但是其学习过程十分缓慢。我们是否能找到一种折中的解决方案呢3「后继特征」一种折中方案2017 年DeepMind 于 Nature 子刊《自然-人类行为》上发表的有关行为科学和神经科学的论文「The successor representation in human reinforcement learning」指出在特定情况下人类和动物会基于一种在模型无关方法和基于模型的方法之间折中的算法模型。我们假设人也会像模型无关智能体一样以数值的形式计算出可选策略的值。但是人类并不是概括出一个单一的数值而是概括出许多描述周围世界的数值这令人回想起了基于模型的智能体。The successor representation in human reinforcement learninghttps://www.nature.com/articles/s41562-017-0180-8我们可以赋予一个 RL 智能体同样的能力。在本例中这样的智能体在每一条路线中会使用一个数值表征对咖啡质量的期望使用另一个数值表征到办公室的距离。智能体还可以用到一些其它事务相对应的值这些事务并不是智能体故意要优化的但是可以用来作为未来的参考例如每个咖啡店的食品质量。有时我们将智能体关心并追踪的世界中某些方面的因素称为「特征」。因此这种对于世界的表征被称为「后继特征」在最初提出这一概念的论文中被称为「后继表征」。后继特征可以被看做模型无关和基于模型的表征之间的一种折中方案。与基于模型的表征相类似后继特征会概括许多不同的值从不止单个值的层面上表征世界。然而它也与模型无关的表征相类似智能体追踪的这些值都是一些简单的统计量它们概括了智能体所关心的特征。这样一来后继特征就好比一种「拆开」的与模型无关智能体。图 4 说明了一个使用后继特征的智能体是如何看待环境的。图  4使用后继特征表征世界。这种方式与模型无关智能体表征世界的方式相类似但是它将每一条路径与若干个数值在本例中为咖啡、视频、距离相关联而不仅仅是使用了一个数值。也就是说当智能体处于「家」中时它需要根据它此刻的偏好赋予 9 个数值权重而不是如图 3 所示的 3 个数值。 4 使用后继特征根据一个策略词典组合新的规划后继特征是一种非常实用的表征这是因为它使我们可以使用不同的偏好集合来评价路线。在这里我们再一次使用图 1 中的蓝色路线作为例子。在使用后继特征时智能体将会使用 3 个与该路径相关的数值路径长度4、咖啡质量3、食物质量5。如果智能体已经吃过早餐了那么它可能不会过于关注食物同样地如果它快迟到了那么相对于咖啡的质量它可能更加关注通勤距离如上文所述它将赋予通勤距离更多的 50% 的权值。在本例中蓝色路径的值是 (-1.5 x 4) (1 x 3) (0 x 5) -3。但是如果有一天智能体很饿因此就会像关心咖啡一样关心食物的质量它就会马上将这条路径的值更新为 (-1.5 x 4) (1 x 3) (1 x 5) 2。使用相同的策略智能体可以根据任意的偏好集合评估任意的路线。在本例中智能体需要在两条路线中做出选择。更一般地说智能体需要搜索出一个策略在任何可能的情况下应该怎么做的方案。这些策略和路线是紧密相关的在本例中如果智能体首先选择了从家中通往咖啡店 A 的道路然后选择了从咖啡店 A 通往办公室的道路那么这种道路选择策略实际上就会穿过蓝色的路径。因此在本例中我们可以交替地使用「策略」和「路线」如果环境中存在一定的随机性那么这种做法就不成立但是在本文中我们不考虑这一细节。我们讨论了可以怎样通过后继特征使用不同的偏好集合评估一条路线或策略。我们将这一过程称为「广义策略评估」GPEgeneralised policy evaluation。为什么 GPE 会有效呢假设智能体拥有一个策略的「词典」例如已知的通往办公室的路线。给定一个偏好集合智能体可以使用 GPE 立刻评估词典中的每一个策略可以在各种偏好情况下的执行效果。有趣的是基于这种对已知策略的快速评估智能体可以动态地创建全新的策略。智能体实现这一目标的方式十分简单每当智能体需要作出决策时它就会考虑以下的问题「如果我需要做出决策并且此后遵循值最大的策略那么哪个决策会导致整体的值最大」令人惊讶的是如果智能体在每个情况下都选取了使得整体值最大的决策它最终形成的策略往往要比用于创建该策略的诸多单个策略都要好。这种将一组策略「组装起来」从而创建一种更好的策略的过程被称为「广义策略提升」GPIgeneralised policy improvement。图 5 说明了 GPI 的工作原理。GPI 的工作原理如上图所示在本例中智能体对通勤距离的关心程度要比其对咖啡和食品质量的关心程度高 50%。在这种情况下最佳路径是首先去咖啡店 A、再去咖啡店 B最终到达办公室。智能体知道三种通往办公室的策略分别对应于蓝色、黄色、橙色的路径。每种策略都会贯穿一条路径但这三条路径没有一条符合本例中的理想路线。通过使用 GPE智能体可以根据其当前的偏好集合对三种策略进行评估即分别为距离、咖啡、食物赋予 -1.5、1、1 的权重。基于评估结果智能体在家中会思考以下问题「如果我一直沿用这三种策略的其中之一直到到达办公室那种策略是最好的」由于上述问题的答案是「蓝色的路径」智能体将会沿着这条路径前进。然而如果当智能体到达咖啡店 A 时它又思考了上述问题它就不会再选用蓝色的策略而会转而选择橙色的路线。通过重复这一过程智能体最终会最终沿着最佳的路径到达办公室从而满足其偏好尽管没有任何一项智能体已知的策略可以独自做到这一点。通过 GPI 创建的策略的性能取决于智能体知道多少种策略。举例而言在本例中只要智能体知道蓝色和黄色的路径它就会针对任意有关咖啡质量和通勤长度的偏好找到最佳的路线。但是GPI 策略并不总是会找到最佳的路线。在图 1 中在不知道有策略将咖啡店 A 和咖啡店 B 连接起来的策略时如图 1 中的橙色路线智能体永远不会在达到咖啡店  A 后又走向咖啡店 B。5 GPE和GPI示例为了说明 GPE 和 GPI 的有效性本节将简要介绍论文「Fast reinforcement learning with generalized policy updates」中的一个实验。该实验使用了一个简单的环境它以一种抽象的方式表征了问题的类型。在这个问题中我们的方法十分有效。如图 6 所示该环境是一个 10*10 的网格有 10 个物体分布在其中。如果智能体获取了某个物体它只会得到一个非零的奖励值此时另一个物体会随机出现在某个位置上。这个附加在物体上的奖励值与物体的类型相关。物体的类型会代表一些具体或抽象的概念在本例中我们将考虑「咖啡」或「食物」智能体会追踪这些特征。论文地址https://www.pnas.org/content/early/2020/08/13/1907370117图 6说明 GPE 和 GPI 有效性的简单环境。智能体使用四个方向上的动作进行移动上、下、左、右当它获取某个物体时会得到一个非零的奖励值。与某一个物体相对应的奖励是根据其类型「咖啡」或「食物」定义的。显然对于智能体而言其最佳策略取决于它当前对于咖啡或食物的偏好。例如在图 6 中只关注咖啡的智能体可能会沿着红色路径前进而仅仅关注食物的智能体会沿着蓝色路径前进。我们还可以立刻想象出智能体以不同的权重关注咖啡和食物的场景包括智能体想要避开其中之一的情况。例如如果智能体想要咖啡但是实在不想吃食物图 6 中的灰色路线可能比红色要好。这一问题中的挑战在于如何快速地适应一组新的偏好或「任务」。在实验中我们展示了如何使用  GPE 和 GPI。我们的智能体会学习两种策略「寻求咖啡」和「寻求食物」。接着我们测试了通过 GPE 和 GPI 计算出的策略在与不同偏好相对应的任务中的性能。如图 7 所示我们在希望找寻求咖啡同时避开食物的任务中将我们的方法与模型无关智能体进行了对比。即使智能体从未学习过如何刻意地避开物体我们将观察智能体如何使用  GPE 和 GPI 立刻组合出一种合理的策略。当然通过 GPE 和 GPI 计算出的策略也可以被用作初始解决方案随后通过学习进行修改这意味着它可能更快地就能达到与模型无关智能体相匹敌的性能。图 7与模型无关方法Q-学习相比在训练数据少得多的情况下GPE-GPI 智能体可以更好地学习。在这里我们的任务是在寻求咖啡的同时避开食物。GPE-GPI 智能体学到了两种策略寻求咖啡和寻求食物。尽管该智能体从未被训练避开某个物体但是它会设法避开食物。阴影区域是运行 100 轮后的标准差。图 7 展示了 GPE 和 GPI 在特定任务上的性能。我们还在许多其它的任务上测试了同样的智能体的性能。图 8 展示了当我们改变咖啡和食物的相对重要程度时模型无关的智能体和 GPE-GPI 智能体的性能的变化情况。请注意模型无关的智能体需要从头开始分别学习每个任务但是 GPE-GPI 智能体只需要学习两个策略然后就可以迅速地适应所有的任务。图 8GPE-GPI 智能体在不同任务上的性能。每个蓝色的数据条由一组智能体对咖啡和食物的偏好确定的任务。图表下方的颜色渐变代表了各种偏好集合蓝色表示正权值白色表示零权值而红色表示负权值。因此在上图的两端任务中的目标实际上是避开一类物体而忽略另一类在上图的中间任务的目标是以同样的力度同时寻求两类物体。误差线显示了 10 轮训练后的标准差。上述实验使用了一个简单的环境该环境被设计来展示 GPE 和 GPI 所需的特性而没有考虑不必要的混淆因素。但是 GPE 和 GPI 也已经得到了大规模应用。例如在论文「Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement」和论文「UNIVERSAL SUCCESSOR FEATURES APPROXIMATORS」中我们说明了当我们将网格世界替换为一个三维环境其中的智能体接受来自第一人称视角的观测数据相同的策略仍然有效。我们还是用 GPE 和 GPI 使一个四足放生机器人能够在仅仅学会了如何沿着三个方向行驶后沿着任何方向行驶详情请参阅论文「The Option Keyboard: Combining Skills in Reinforcement Learning」。UNIVERSAL SUCCESSOR FEATURES APPROXIMATORShttps://openreview.net/pdf?idS1VWjiRcKXTransfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvementhttp://proceedings.mlr.press/v80/barreto18a/barreto18a.pdfThe Option Keyboard: Combining Skills in Reinforcement Learning论文地址https://papers.nips.cc/paper/9463-the-option-keyboard-combining-skills-in-reinforcement-learning视频链接https://www.youtube.com/watch?v39Ye8cMyelQfeatureyoutu.be6 GPE和GPI研究进展 有关 GPE 和 GPI 的工作是两个与这些操作分别相关的两个独立的研究分支的交集。首先与 GPE 相关的「后继表征」方面的工作起源于 Dayan 于 1993 年发表的具有开创性意义的论文「Improving Generalization for Temporal Difference Learning: The Successor Representation」。Dayan 的论文解开了神经科学领域一系列工作的序幕这类工作至今都十分活跃。近期论文「Successor Features for Transfer in Reinforcement Learning」和论文「Deep Successor Reinforcement Learning」等后继表征又称「后继特征」相关的工作再次出现在了 RL 领域中并再度成为了一个活跃的研究方向。后继特征还与通用值函数紧密先关这一概念建立在 Sutton 等人的假设之上即相关的知识可以通过许多有关世界的预测的形式被压缩。RL 领域的研究人员在论文「Apprenticeship Learning via Inverse Reinforcement Learning」中提出了后继特征的定义这一概念在与深度强化学习相关的工作「Universal Value Function Approximators 」中也被提及。Improving Generalization for Temporal Difference Learning: The Successor Representationhttps://www.mitpressjournals.org/doi/abs/10.1162/neco.1993.5.4.613?journalCodenecoSuccessor Features for Transfer in Reinforcement Learninghttps://papers.nips.cc/paper/6994-successor-features-for-transfer-in-reinforcement-learningDeep Successor Reinforcement Learninghttps://arxiv.org/abs/1606.02396Apprenticeship Learning via Inverse Reinforcement Learninghttps://ai.stanford.edu/~ang/papers/icml04-apprentice.pdfUniversal Value Function Approximators http://proceedings.mlr.press/v37/schaul15.pdf此外与 GPI 相关的研究工作关注的是将行为组合起来从而创造新的行为。多年来执行自控制器的去中心化控制器的思想多次出现例如A robust layered control system for a mobile robot使用值函数对这种思想的实现也可以追溯到至少 1997 年之早详见 Humphrys 的博士论文「Action Selection methods using Reinforcement Learning」和Karlsson 的博士论文「Learning to Solve Multiple Goals」。GPI 还与层次化强化学习紧密相关它是建立在 Dayan、Hinton、Parr、Russell、Sutton、Precup、Singn、Dietterich 等人的工作的基础之上的。对行为的组合和层次强化学习都是今天非常活跃的研究领域。A robust layered control system for a mobile robothttps://ieeexplore.ieee.org/document/1087032Action Selection methods using Reinforcement Learninghttps://www.computing.dcu.ie/~humphrys/PhD/index.htmlLearning to Solve Multiple Goalshttp://citeseerx.ist.psu.edu/viewdoc/download?doi10.1.1.37.8338reprep1typepdfMehta 等人的论文「Transfer in variable-reward hierarchical reinforcement learning」可能是第一份同时使用 GPE 和 GPI 的论文尽管他们认为 GPI 在一开始就退化为单一选择即不存在策略的「组合」。本文中讨论的将 GPE 和 GPI 同时使用的方法首次在 2016 年发表的论文「Successor Features for Transfer in Reinforcement Learning」中作为一种促进迁移学习的机制被提出。强化学习中的迁移方法可以追溯到 Singh 于 1992 年发表的论文「Transfer of learning by composing solutions of elemental sequential tasks」此类研究在深度强化学习的背景下再度兴起成为了一个持续活跃的研究领域。Transfer in variable-reward hierarchical reinforcement learning」http://homes.sice.indiana.edu/natarasr/Papers/var-reward.pdfSuccessor Features for Transfer in Reinforcement Learninghttps://arxiv.org/abs/1606.05312Transfer of learning by composing solutions of elemental sequential taskshttps://link.springer.com/article/10.1007/BF00992700 7强化学习的组合方法综上所述模型无关智能体不能轻易地适应新场景例如适应它以前没有经历过的偏好集合。基于模型的智能体可以适应任何新场景但为了做到这一点它首先必须学习整个世界的模型。基于 GPE 和 GPI 的智能体提供了一种折中的解决方案虽然它学习的世界模型比基于模型的智能体要小得多但它可以快速适应某些场景通常具有良好的性能。本文讨论了一些 GPE 和 GPI 的具体实例但它们实际上是更为一般的概念。在抽象的层面上使用 GPE 和 GPI 的智能体会分为两部运行。首先从 GPE 的角度来说当智能体面对一个新的任务时它会思考「已知任务的解决方案在这种新任务上效果将会如何」接着从 GPI 的角度来说基于 GPE 的评估结果智能体会组合先前的解决方案从而为新任务构建一种解决方案。GPE 和 GPI 背后的具体机制并不像原理本身那么重要而寻找实现这些操作的替代方法可能是一个令人兴奋的研究方向。有趣的是行为科学领域的一项新研究「Multi-Task Reinforcement Learning in Humans」提供了初步的证据表明人类在多任务情境下做决定时遵循的原则与 GPE 和 GPI 非常相似。Multi-Task Reinforcement Learning in Humanshttps://www.biorxiv.org/content/10.1101/815332v1通过 GPE 和 GPI 实现的快速适应机制有望构建更快的强化学习智能体。更广泛地来说它提供了一种学习灵活解决问题的新方法。智能体可以将一个问题分解为更小的、更易于管理的子任务而不是将其作为一个单一的、整体的任务来处理。接着我们可以复用并重新组合子任务的解决方案从而更快地解决整体的任务。这项工作实现了一种强化学习的组合方法它可能会催生扩展性更强的智能体。至少这些智能体不会因为一杯咖啡而迟到。原文链接https://www.deepmind.com/blog/article/fast-reinforcement-learning-through-the-composition-of-behaviours未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://wiki.neutronadmin.com/news/310288/

相关文章:

  • 建德网站优化公司外贸接单十大网站
  • wordpress如何调用文章seo北京
  • 贸易公司网站案例建设通会员多少钱一个年
  • 做组织架构图的网站h5免费制作网站
  • 烟台建网站公司哪家好赣州专门网公司
  • 哪里有专业做网站php网站建设心得体会
  • 手机优化助手怎么关闭优化大师有必要安装吗
  • 网站正在建设源码资源搜索器
  • 摄影网站建设流程wordpress手机版注册
  • 重庆营销网站wordpress mysql nghix
  • 做影视网站哪些网站可以做团购
  • 网站开发 策划书微信商城怎么找
  • 网站描述怎样写wordpress安装到的数据库名称
  • 响应式企业网站设计与实现wordpress空间服务商
  • 滕州市建设局网站大连的网页设计公司
  • 重庆高端网站设计公司网页图片不能保存怎么破解
  • 如何在手机上开自己的网站网站建设订制版合同模板
  • wordpress多语言企业网站宣传软文推广
  • 商丘网站重型机械网站开发模版
  • 徐州网站制作做网站优化需要多少钱
  • 可信网站收费吗江苏国龙翔建设公司网站
  • 中国建设部网站查询网顺德网页制作公司
  • 网站建设哪家服务周到全托管跨境电商平台有哪些
  • 网站怎么做后台谷德设计网站
  • 关于戒烟网站怎么做手机有些网站打不开怎么解决
  • 网站建设全包需要多少钱做网站 赚钱
  • 洪洞网站建设汕头搜索引擎优化服务
  • 2017网站开发就业前景农产品网络营销推广方案
  • 网站建设推推蛙培训学校网站系统
  • 做网站和做app哪个贵wordpress图片调方法