当前位置: 首页 > news >正文

外贸网站建设公司排名布谷 海南网站建设

外贸网站建设公司排名,布谷 海南网站建设,网站都能做响应式,crm厂商排名注#xff1a;本文的正文干货转载并少量修改自大佬覃含章#xff08;知乎id同名#xff0c;知乎必关的数值优化大佬啊啊#xff09;的一篇知乎回答#xff0c;链接https://www.zhihu.com/question/53381093/answer/562235053一个转角事情是这样的#xff0c;最近小夕在做… 注本文的正文干货转载并少量修改自大佬覃含章知乎id同名知乎必关的数值优化大佬啊啊的一篇知乎回答链接https://www.zhihu.com/question/53381093/answer/562235053一个转角事情是这样的最近小夕在做NLP多任务学习相关的一些工作嘛然后有一天老大甩给小夕一篇paperNAACL2019 | AutoSeM: Automatic Task Selection and Mixing in Multi-Task Learning诶看起来很有意思的样子辅助任务不用自己选啦mix ratio不用手调了上图上图不过小夕最近大半年的时间里炼丹炼多了都怪BERT又让我的数学退化了( ́︿ ̀)论文里各种熟悉的名词如Beta分布Gamma函数等竟然都一时没想起来是什么LDA白学了啊喂。虽然可以通过上面这张图感性的理解Multi-arm BanditMAB多臂老虎机的原理但是理性的数学公式这个小夕曾经觉得最直观的表达方式如今却变得如此陌生天我也太堕落了叭于是最近借着这篇paper把相关的数学概念和MAB相关的一些理论啃一啃真的不能变成一个无脑炼丹的攻城师啊喂(╯°□°╯︵ ┻━┻RL核心问题要了解MAB (multi-arm bandit)首先我们要知道它是强化学习 (reinforcement learning) 框架下的一个特例。先来重新回顾一下什么是强化学习以及RL的核心问题是什么。我们知道现在市面上各种“学习”到处都是。比如现在大家都特别熟悉机器学习machine learning,或者许多年以前其实统计学习statistical learning可能是更容易听到的一个词。那么强化学习的“学习”跟其它这些“学习”有什么区别呢这里自然没有什么标准答案有这样一个解释也可见Sutton Barto第二章引言在传统的机器学习中主流的学习方法都是所谓的“有监督学习”supervised learning不管是模式识别神经网络训练等等你的分类器并不会去主动评价evaluate你通过每个样本所得到的训练结果反馈也不存在主动选择动作action的选项比如可以选择在采集了一些样本之后去采集哪些特定的样本。意思就是在这些传统的机器学习方法中实际上也包括其它无监督学习或者半监督学习的很多方法你并不会动态的去根据收集到的已有的样本去调整你的训练模型你的训练模型只是单纯被动地获得样本并被教育(instruct作为对比active learning主要就是来解决这一问题的。而强化学习主要针对的是在一个可能不断演化的环境中训练一个能主动选择自己的动作并根据动作所返回的不同类型的反馈feedback动态调整自己接下来的动作以达到在一个比较长期的时间段内平均获得的反馈质量。因此在这个问题中如何evaluate每次获得的反馈并进行调整就是RL的核心问题。这么讲可能还比较抽象但如果大家熟悉下围棋的AlphaGo它的训练过程便是如此。我们认为每一局棋是一个episode。整个的训练周期就是很多很多个epsiode。那么每个episode又由很多步step构成。动作——指的就是阿法狗每步下棋的位置根据对手的落子而定反馈——每一次epsiode结束胜负子的数目。显然我们希望能找到一个RL算法使得我们的阿法狗能够在比较短的epsisode数目中通过调整落子的策略就达到一个平均比较好的反馈。当然对这个问题来说我们的动作空间action space即可以选择的动作和状态空间state space即棋盘的落子状态的可能性都是极其大的。因此AlphaGo的RL算法也是非常复杂的相比于MAB的算法来说。Bandit老虎机多臂老虎机简称MAB我们先考虑最基本的MAB问题。如上图所示你进了一家赌场假设面前有 K 台老虎机arms。我们知道老虎机本质上就是个运气游戏我们假设每台老虎机 i 都有一定概率 p_i 吐出一块钱或者不吐钱 概率 1-p_i 。假设你手上只有 T 枚代币tokens而每摇一次老虎机都需要花费一枚代币也就是说你一共只能摇 T 次那么如何做才能使得期望回报expected reward最大呢这就是最经典的MAB场景。那么问题的核心是什么呢自然我们应该要假设 p_i 们是不太一样的不然怎么摇都一样了即有一些老虎机比较“好”更容易吐钱有一些则比较“差”不太容易吐钱。回到RL的框架我们的动作是什么即每次摇哪台老虎机。我们的反馈呢即我们摇了某台特定的老虎机当回合可以观察它吐了钱没有。这里当然还有个重要的统计学/哲学问题即我们是贝叶斯人Bayesian还是频率学家frequentist。对贝叶斯人来说我们在一进入赌场就对每台老虎机扔钱的概率 p_i 就有一个先验分布prior distribution的假设了比如一个很常见的我们可以用Beta分布。如果我们认为大概率 p_i 都应该是0.5即对半开而不太可能出现一些很极端的情况我们就可以选择Beta(1,1)分布作为我们的先验分布。然后在我们真正摇了老虎机之后根据相应的反馈我们就可以调整 p_i 们相应的后验分布posterior distribution。比如如果某台机器摇了四五次一直吐不出钱我们就应该将这台机器的吐钱概率的分布往左推因为它的 p_i 大概率应该是小于0.5的。那么你的任务便是要在有限的时间内找出 p_i 后验分布比较靠右的那些机器因为他们更容易吐钱并且尽可能多的去摇这些比较赚钱的机器。而如果你是频率学家就没什么先验或者后验分布了你假设你一开始对这些机器的吐钱概率一无所知。你认为每个机器的p_i 是个确定的值。那么你的任务就是要在有限的时间内找到那些高 p_i 的机器并尽可能多的去摇它们以获得更多的回报。那么这里我们注意到这类问题的一大特点即我们只有 T 次摇机器的机会如何去平衡这 T 次中exploration探索和exploitation挖掘的次数。探索意味着广度比如如果你是频率学家你一开始什么都不知道你至少每个机器都需要稍微摇几次假设 TK ) 不然问题就无法搞定了才能对每个机器吐钱概率有个大概感觉。然后你可能会缩小你的搜索范围再几台机器里重点实验最后可能就专门摇一台你觉得最容易吐钱的机器了。当然我们之后会看到这种办法也未必是最好的。一些MAB变种最后说下MAB问题可能的一些更复杂的变种。首当其冲的在于我们前面的讨论默认了环境是不会变化的。而一些MAB问题这个假设可能不成立这就好比如果一位玩家发现某个机器的 p_i 很高一直摇之后赌场可能人为降低这台机器吐钱的概率。在这种情况下MAB问题的环境就是随着时间/玩家的行为会发生变化。这类问题在合理的假设下也是有不少研究和相应的算法的。目前做的最多的假设也就是所谓的adversarial bandit就不是stochastic bandit了就是说这些 p_i 会被一个“对手”也可以看成上帝设定好。如果这是事先设定好并且在玩家开始有动作之后也无法更改我们叫做oblivious adversary setting; 如果这个对手在玩家有动作之后还能随时更改自己的设定那就叫做adaptive adversary setting, 一般要做成zero-sum game了。此外最近也有一些随机但nonstationary的假设下的工作。  另外MAB有一类很重要的变种叫做contextual MAB(cMAB)。几乎所有在线广告推送dynamic ad display都可以看成是cMAB问题。在这类问题中每个arm的回报会和当前时段出现的顾客的特征也就是这里说的context有关。另外如果每台老虎机每天摇的次数有上限那我们就得到了一个Bandit with Knapsack问题这类问题以传统组合优化里的背包问题命名它的研究也和最近不少研究在线背包问题的文章有关之后我们也会专门讨论。还有很多变种如Lipshitz bandit, 我们不再有有限台机器而有无限台它们的reward function满足利普西茨连续性等。最后虽然转角遇到的不是爱而是老虎机但是看起来也蛮好玩的嘛
http://wiki.neutronadmin.com/news/417342/

相关文章:

  • 新站seo外包无锡网站建设君通科技公司
  • 南京网站推广手机上如何申请营业执照
  • 安卓毕业设计代做网站南宁网站建设服务公司
  • 北海哪家公司做网站建设研发低价网站建设咨询
  • 关于进一步加强网站建设和网站建设公司无锡
  • 南昌网站建设报价郑州便宜网站建设
  • 无锡网站推广营销型网站页面
  • 三门峡网站seo佛山国外网站开发
  • 黑客收徒网站建设成都私人定制旅游公司排名
  • 江阴网站建设公司中国建设监理协会网站个人会员系统栏
  • 免费ppt下载网站找山东制作app公司
  • 视频直播网站开发做网站 什么主题较好
  • 河南做网站的费用广州微信开发
  • 利用ps怎么做网站首页微信公众号如何创建
  • win7记事本做网站成都网站建设 招聘
  • 哪个网站可以做担保交易平台银川网站开发公司电话
  • 西宁最好网站建设公司哪家好厦门seo优化
  • 内蒙古建设厅网站官网wordpress admin慢
  • 网站引导页psd编程猫官方网站
  • 泰州外贸网站建设空调安装东莞网站建设
  • 网站建设排名软件网页设计实训总结万能版
  • 网站 文章排版电商网站统计怎么做
  • 手机端网站欣赏建e网手机版
  • 淘宝网站建设那么便宜网页加速器免费永久
  • 建设营销型网站服务销售团队
  • 制作网站要多久设计之家效果图
  • 用新华做网站名是否侵权普通网站能不能用vue做几个小功能
  • 成武县住房和城乡建设厅网站百度app下载官方
  • 织梦cms网站建设成立公司的好处和坏处
  • 中国国家人才培训网官网生哥seo博客