当前位置: 首页 > news >正文

建设一个视频网站己18网站建设网站排名

建设一个视频网站己18,网站建设网站排名,外贸网站建设厦门,免费h5制作网站原标题#xff1a;学界 | 一台笔记本打败超算#xff1a;CMU冷扑大师团队提出全新德扑AI Modicum选自arXiv参与#xff1a;路、晓坤CMU 冷扑大师团队在读博士 Noam Brown、Tuomas Sandholm 教授和研究助理 Brandon Amos 近日提交了一个新研究#xff1a;德州扑克人工智能 M…原标题学界 | 一台笔记本打败超算CMU冷扑大师团队提出全新德扑AI Modicum选自arXiv参与路、晓坤CMU 冷扑大师团队在读博士 Noam Brown、Tuomas Sandholm 教授和研究助理 Brandon Amos 近日提交了一个新研究德州扑克人工智能 Modicum它仅用一台笔记本电脑的算力就打败了业内顶尖的 Baby Tartanian8(2016 计算机扑克冠军)和 Slumbot(2018 年计算机扑克冠军)。此前冷扑大师的论文《Safe and Nested Subgame Solving for Imperfect-Information Games》是 NIPS 2017 的最佳论文。1 引言不完美信息博弈对智能体和隐藏信息之间的战略互动进行建模。此类博弈的主要基准是扑克尤其是一对一无限注德州扑克(HUNL)2017 年人工智能 Libratus 打败德州扑克人类顶级玩家 [6]。带来这一超人性能的关键突破在于嵌套求解(nested solving)随着在博弈树的位置不断下移智能体实时重复计算更加精细调整的策略(只属于完整博弈的一部分)。但是实时子博弈求解在前半场对于 Libratus 来说成本太高因为 Libratus 实时求解的这部分博弈树(即子博弈)通常延伸到游戏结束。因此前半场 Libratus 预先计算出一个精密策略用作查找表。如果该策略成功则它需要可用于计算的数百万核心时间和数 TB 内存。此外在更深的序贯博弈中该方法的计算开销更加昂贵因为需要求解更长的子博弈和更大型的预计算策略。一个更通用的方法是在博弈的早期阶段就对深度有限(depth-limited)的子博弈进行求解。扑克 AI DeepStack 使用与嵌套求解类似的一项技术实现了这种操作 [26]。但是尽管 DeepStack 战胜了一组 HUNL 非顶尖人类专业选手但它没有打败之前顶尖的 AI尽管它使用超过一百万核心时间来训练智能体这表明它使用的方法可能在扑克等领域不够实际或有效。本论文在第 7 部分详细讨论了该问题。本论文介绍了一种不同的深度有限求解方法该方法战胜了之前顶尖的 AI且计算开销实现数量级的下降。在完美信息博弈中深度有限子博弈的叶节点处的值被替换为所有选手在均衡状态时的状态估计值 [34, 32]。例如该方法在 backgammon [38]、国际象棋 [9] 和围棋 [35, 36] 上达到了超越人类的水平。同样的方法还广泛应用于单智能体设置中如启发式搜索 [29, 24, 30, 15]。的确在单智能体和完美信息多智能体设置中了解所有选手均衡状态时的状态值足以重建均衡。但是该方法在不完美信息博弈中没有效果。2 深度有限求解在不完美信息博弈中遇到的挑战在不完美信息博弈中(也叫作部分可观测游戏)子博弈中的最优策略无法通过了解所有选手均衡状态时的状态值(即博弈树节点)来确定。图 1a 是一个简单图示展示了一种序贯博弈游戏「剪刀石头布」(Rock-Paper-ScissorsRPS)。RPS 和传统的 RPS 相同除了玩家出剪刀赢者得 2 分而不是 1 分(输者也输 2 分)。图 1a 以序贯博弈的形式展示 RPS 游戏其中 P_1 首先动作但是没有向 P_2 泄露动作。该游戏中对于两个玩家来说最优策略(Minmax 策略即双人零和博弈中的纳什均衡)就是每一方以 40% 的概率选择石头或布20% 的概率选择剪刀。在该均衡中P_1 选择石头的期望值为 0选择剪刀或布的值也为 0。也就是说图 1a 中所有的红色状态在该均衡中的值都为 0。现在假设 P_1 实施深度为 1 的深度有限搜索深度极限处的均衡值被替代。该深度有限子博弈如图 1b 所示。很明显在该子博弈中没有足够的信息达到 40% 石头、40% 布、20% 剪刀的最优策略。在 RPS 例子中核心问题在于我们不正确地假设 P_2 将总是执行固定的策略。如果实际上 P_2 出石头、布和剪刀的概率是0.4,0.4,0.2那么 P_1 将选择任意的策略并且期望值为 0。然而如果假设 P_2 总是执行固定的策略P_1 可能无法找到对 P_2 变化具备鲁棒性的策略。事实上P_2 的最优策略依赖于 P_1 选择石头、布和剪刀的概率。一般而言在不完美信息博弈中玩家在某个决策点的最优策略依赖于玩家在状态上的信度分布(belief distribution)以及其它智能体在该决策点上的策略。在本文中研究者引入了一种深度有限求解方法确保玩家策略对于对手的变化具备鲁棒性。研究者允许对手在深度有限(depth limit)处进行最后一次动作选择(其中每个动作对应对手将在博弈余下部分执行的策略)而不是在深度极限处简单地替换单个状态值。策略的选择决定了状态值。对手并没有按特定于状态的方式进行选择(即选择最大状态值)。相反自然地对手必须在所有状态进行相同的(对他而言)无法分辨的选择。研究者证明了如果对手被给定了在深度有限处的足够数量的策略那么任何在深度有限处的子博弈求解都是完整博弈的纳什均衡策略的一部分。他们还通过实验展示了当仅提供了少量的策略时(为提高计算速度)该方法的性能达到极端的高度。6 实验研究者在一对一无限注德州扑克(HUNL)和一对一无限注 flop 扑克(NLFH)上构建了实验。附录 B 中有这些游戏的规则。HUNL 是不完美信息博弈 AI 的主要大规模基准。NLFH 和 HUNL 相似除了博弈会在第二个回合之后立刻结束这使其规模足够小从而能精确地计算最佳反应和纳什均衡。性能根据 mbb/g 测量这是文献中的标准胜率度量。mbb/g 即 milli-big blinds per game代表玩家在每一手牌中平均能赢多少个大盲注(玩家在开始时必须承诺的赌注)的千分之一。图 2回应对手的 off-tree 动作的深度有限解决方案的利用度(exploitability)作为状态值数量的函数。研究者对比了动作转换和在动作提取中包含 off-tree 动作(在 CFR的 1000 次迭代的达成利用度是下限值)的方法。6.2 在一对一无限注德州扑克(HUNL)上对抗顶尖 AI 的实验我们主要的实验使用了深度有限求解的方法并仅使用普通笔记本电脑上的计算资源生成大师级的 HUNL 扑克 AIModicum。我们测试了 Modicum 与 Baby Tartanian8 [4] 和 Slumbot [18]其中 Baby Tartanian8 是 2016 年度计算机扑克竞赛的获胜者Slumbot 是 2018 年度计算机扑克竞赛的获胜者。Baby Tartanian8 和 Slumbot 都不使用实时计算它们的策略都是在预计算的查找表中搜索得到的。Baby Tartanian8 使用了约为 250000 个核心计算小时和 2TB RAM 来计算策略。相反Modicum 只使用 700 个核心计算小时和 16GB 的 RAM 计算策略它在使用 4 核 CPU 的情况下还能以人类专家的速度实时进行博弈(平均一手扑克需要 20 秒)。7 对比先前研究工作通过为状态分配多个值本论文介绍了一种克服这一挑战的方法。一种不同的方法是将「状态」的定义修改为所有博弈者对状态的的信念概率分布(belief probability distribution)我们称之为联合信念状态这种技术以前也用来开发扑克 AI DeepStack [26]。实验表明在我们测试的领域中使用多值状态(multi-valued states)能产生更好的性能。例如我们的方法在少于 1000 个核心计算小时的条件下能击败两种以前顶级的德州扑克 AI。相比之下虽然 DeepStack 击败了在 HUNL 中不是那么专业的人类专家但它即使使用了 1000000 个核心计算小时也不能击败以前顶尖的 AI。但是这两种方法都各自有优缺点我们需要根据领域正确地选择未来的研究也许会改进它们的性能与优势。论文Depth-Limited Solving for Imperfect-Information Games论文地址https://arxiv.org/abs/1805.08195在不完美信息博弈中一个基本的挑战即状态没有良好定义的值。因此在单智能体和完美信息博弈中常用的深度有限(depth-limited)搜索算法并不合适。本文介绍了一种在不完美信息博弈中进行深度优先求解的原则性方法它允许对手在深度有限下为其余部分选择多种策略。且每一种策略都会为叶节点生成一组不同值这使得智能体针对对手可能采取的策略产生鲁棒性。我们通过构建大师级的一对一无限注德州扑克 AI 而证明这种方法的高效性它仅使用一块 4 核的 CPU 和 16GB 的内存就能击败两个以前顶级的智能体。以前开发这样一个强大的智能体需要一台超级计算机。本文为机器之心编译转载请联系本公众号获得授权。返回搜狐查看更多责任编辑
http://wiki.neutronadmin.com/news/344674/

相关文章:

  • 辽宁朝阳网站建设公司惠州哪家做网站好
  • 顺德新网站制作网站建设 技术方案
  • 小企业网站建设怎么做好服装网站建设公司
  • 用flask做的网站有哪些怎么自己开发一个app软件
  • 合肥网站建设方案咨询萤火虫网站建设优化
  • 科站网站商业网站的建设与维护
  • 网站建设 中关村凡科网登录下载
  • 锦州网站建设多少钱百度收录网站标题
  • 工信部网站备案查询电商网站 知名案例
  • 做网站的叫什么软件大都会app下载二维码
  • 做问卷调查用哪个网站好服务器出租网站模板
  • 南县网站开发设计师找灵感的网站
  • 做国外网站什么好做电影网站违法吗
  • 云南网站建设运营西安php网站制作
  • wordpress网站换主题wordpress previous_posts_link
  • 汕头网站建设模板制作用html做女装网站
  • 海宁网站网站建设wordpress 多语言设置
  • 能通过付费网站看别人空间吗莱芜职业技术学院
  • 华城建设集团有限公司官方网站网站开发属于软件开发类吗
  • 保险微网站制作刮奖网站
  • ps做网站画布大小是多少网站建设请示文件
  • 网站建设关键要素莆田有哪几家做网站设计的
  • 网站建设博采1高端网站建设
  • 深圳网站建设968做网站的语
  • 个人网站带论坛 备案成都旅游几月份最佳时间
  • python创建网站网络营销教学大纲
  • 百度收录最快网站wordpress 和帝国
  • 怎么恢复网站数据库请人做网站收费多少
  • 公司网站怎么做能被别人搜索到做商城网站多少钱
  • 网站的ip地址是什么青之峰做网站