当前位置：首页 > news >正文

盐山县做网站网页设计收费标准需要多少钱

news 2025/12/7 8:24:04

盐山县做网站,网页设计收费标准需要多少钱,购物网站开发总结报告,单位网站建设总结来源#xff1a;机器之心摘要#xff1a;我们团队构建的模型#xff0c;OpenAI Five#xff0c;已经击败业余 Dota2 团队了。虽然如今是在有限制的情况下#xff0c;但我们计划到 8 月份在有限英雄池下击败 TI 赛中的一支顶级专业队伍。我们团队构建的模型#xff0c;Ope… 来源机器之心摘要我们团队构建的模型OpenAI Five已经击败业余 Dota2 团队了。虽然如今是在有限制的情况下但我们计划到 8 月份在有限英雄池下击败 TI 赛中的一支顶级专业队伍。我们团队构建的模型OpenAI Five已经击败业余 Dota2 团队了。虽然如今是在有限制的情况下但我们计划到 8 月份在有限英雄池下击败 TI 赛中的一支顶级专业队伍。我们可能不会成功因为 Dota2 是当前最流行也最复杂的电子竞技游戏之一一批有激情与创造力的玩家经年训练想要瓜分 4000 万美金的奖金池。通过自我对抗学习OpenAI Five 每天相当于玩 180 年的游戏。训练上它使用 256 块 GPU、12 万 8000 个 CPU 核心使用近端策略优化Proximal Policy Optimization方法进行训练这是在我们去年建立的 solo Dota2 系统上的扩增。当我们为每个英雄使用单独的一个 LSTM模型就可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步也能够产生大规模但也可接受的长期规划。这出乎了我们刚开始时的预料。问题人工智能的一个里程碑就是在星际争霸或者 Dota 这类复杂的电子游戏中超越人类的水平。相比于上一个里程碑即国际象棋与围棋复杂电子游戏开始反映真实世界的混乱与连续的本质。因此我们希望能够解决复杂电子游戏的系统可以成为通用的、在游戏之外有广阔应用场景的系统。Dota2 是一个实时的 5 v 5 策略游戏每个玩家控制一个英雄。而玩 Dota 的 AI 需要掌握以下技能1.长线策略。Dota 游戏平均每秒 30 帧一场时常 45 分钟大概 8 万 tick。大部分操作例如操纵英雄移动都有单独的小影响但一些个体行为可能会影响到游戏战略例如 TP 回家。此外还有一些策略可能会终结整场游戏。OpenAI Five 每 4 帧观察一次产生了 2 万个决策。相比之下国际象棋一般在 40 步之前就结束了围棋大概 150 步但这些游戏每一步都很有策略性。 2.局部可观测状态。己方单位和建筑的视野都有限。地图的其他部分是没有视野的可能藏有敌人和敌方策略。高玩通常需要基于不完整数据做推理以及建模敌方意图。而国际象棋和围棋都是完全信息博弈。3.高维、持续的行为空间。在 Dota 中每个英雄能采取数十种行为而且许多行为要么面向敌方单位要么点地移动位置。我们把这个空间离散到每个英雄 17 万种可能的操作不是每 tick 都有效例如在技能冷却时放技能就是无效操作不计算连续部分每 tick 平均 1000 个可能有效行为。国际象棋的行为数量大概是 35围棋 250。4.高维、连续的观察空间。Dota 是在一张包含 10 个英雄、20 几个塔、数十个 NPC 单位的地图上操作的游戏此外还有神符、树、眼卫等。通过 ValveDota 2 的运营公司的 Bot API我们的模型把 Dota 游戏视为 2 万个状态也就代表人类在游戏中可获取到的所有信息。国际象棋代表大概 70 个枚举值8x8 的棋盘6 类棋子和较小的历史信息。围棋大概有 400 个枚举值19x19 的棋盘黑白 2 子加上 Ko。Dota 规则也非常复杂这类游戏开发了十几年成百上千的代码行实现游戏逻辑。而且游戏每两周更新一次环境语义一直在变。方法我们的系统使用一个高度扩展版本的近端策略优化Proximal Policy Optimization算法进行学习。OpenAI Five 和之前的 1v1 机器人都是通过自我对抗进行学习的。他们从随机参数开始并不从人类玩家的方法中进行搜索或者自举。强化学习研究人员包括我们自己过去普遍认为进行长时间范围的学习需要根本性的算法突破例如层级强化学习hierarchical reinforcement learning。而我们的结果显示我们并没有充分信任现有的模型——至少当他们以足够的规模和合理的探索方式运行的时候。我们的智能体被训练以最大化未来奖励的指数衰减和其中指数衰减因子被称为 γ。在 OpenAIFive 最新一轮的训练中我们将 γ 从 0.998以 46 秒为半衰期调整到了 0.997以 5 分钟为半衰期。相比之下OpenAI 的近端策略优化PPO论文中最长的时间跨度为半衰期 0.5 秒DeepMind 的 Rainbow 论文中最长的时间跨度为半衰期 4.4 秒Google Brain 的 Observe and Look Further 论文中则使用了 46 秒的半衰期。虽然当前 OpenAI Five 的补兵能力略差看我们的测试赛专业 Dota 解说员 Blitz 估计它的补兵能力只有职业玩家的中值水平但它在选择优先攻击目标上能达到专业水平。获取长期奖励例如插眼控图通常需要牺牲短期奖励例如发育后的金钱因为团推时要也要耗费时间。这一观察加强了我们的信念系统会随长时间而有优化。模型架构每个 Open AI Five 网络包含一个单层、1024 个单元的 LSTM 网络它能观察当前的游戏状态从 Valve 的 Bot API 中抽取并通过一些可能的行动 Head 发出下一步采取的行动。每一个 Head 都包含语义信息例如延迟该行动的时间值、选择哪一个行动和其 X 与 Y 的坐标轴。OpenAI Five 使用了观察空间和行动空间的交互性演示。它将世界表征为一个由 2 万个数值组成的列表并通过发出一个包含 8 个枚举值的列表而采取行动。我们可以在 OpenAI 网站上选择不同的行动和目标以理解 OpenAI Five 是如何编码每一个行动以及如何观察世界的。下图展示了人们可能会观察到的场景NecrophosOpenAI Five 可以对其丢失的状态片段作出反应这些状态片段可能与它所看到的相关。例如直到最近 OpenAI Five 的观察还没有包含弹片落下的区域而人类可以在屏幕上轻松观察到这些落弹区域。然而我们观察到 OpenAI Five 可以学习走出活跃的落弹区域因为在这样的区域中智能体会发现它们的生命值在下降。探索尽管构建的学习算法能处理较长的视野但我们仍然需要探索环境。即使我们已经限制了复杂度但游戏仍然有数百种物品、几十种建筑、法术、单位类型以及需要长时间慢慢学习的游戏机制这些变量将组合成极其巨量的情况。因此有效地探索这一巨大的组合空间是非常困难的。OpenAI Five 通过自我对抗self-play从随机权重开始学习这为探索环境提供了一个自然的 curriculum。为了避免「策略崩坏」智能体在 80% 的游戏中通过自我对抗进行训练而在 20% 的游戏中与过去的智能体进行对战。在第一场游戏中英雄漫无目的地在地图上探索而在几个小时的训练后出现了规划、发育或中期战斗等概念。几天后智能体能一致地采用基本的人类策略试图从对手偷财富、推塔发育、在地图旋转控制英雄以获得线路优势。通过进一步的训练它们变得精通 5 个英雄一起推塔这样的高级策略了。在 2017 年我们第一个智能体击败了机器人但仍然不能战胜人类。为了强制在策略空间中进行探索我们有且仅在训练期间对这些单位的属性生命、速度和初始等级等进行了随机化然后它开始与人类对战。随后当一名测试玩家不停地击败我们的 1V1 机器人时我们增加了训练的随机性然后测试玩家就开始输掉比赛了。此外我们的机器人团队同时将类似的随机技术应用到物理机器人中以便从模仿学习迁移知识到现实世界中。OpenAI Five 使用我们为 1V1 机器人编写的随机化它还使用一个新的「lane assignment」。在每次训练游戏开始时我们随机「分配」每一个英雄到线路的一些子集并在智能体发生偏离时对其进行惩罚直到游戏中的随机选择时间才结束惩罚。这样的探索得到了很好的奖励。我们的奖励主要由衡量人类如何在游戏中做决策的指标组成净价值、杀敌数、死亡数、助攻数、最后人头等。我们通过减去每一个团队的平均奖励以后处理每一个智能体的奖励因此这能防止智能体找到正项和positive-sum的情况。合作OpenAI Five 没有在各个英雄的神经网络之间搭建显式的沟通渠道。团队合作由一个我们称之为「团队精神」的超参数控制。团队精神的取值范围为从 0 到 1代表了 OpenAI Five 的每个英雄在多大程度上关注自己的个人奖励函数以及在多大程度上关注团队平均奖励函数。在训练中我们将其值从 0 逐渐调整到 1。Rapid我们的系统是用通用的强化学习训练系统 Rapid 来实现的。Rapid 可以被应用到任何一个 Gym 环境。在 OpenAI我们也用 Rapid 来解决其他问题包括竞争性自我对抗训练Competitive Self-Play。训练系统示意图我们已经在 IBM Kubernetes微软 Azure谷歌 GCP 后端上实现了 Rapid。游戏到目前为止我们与这些队伍进行了对战1、最强的 OpenAI 职员团队: 匹配分 2500 2、观看 OpenAI 职员比赛的观众玩家 (包括 Blitz 等)匹配分 4000-6000他们此前从没有组队参赛过。3、Valve 公司团队: 匹配分 2500-4000 4、业余团队: 天梯 4200, 作为一支队伍来进行训练。5、半职业团队: 天梯 5500, 作为一支队伍来进行训练。在与前面三支队伍的比赛中OpenAI 取得了胜利输给了后面的两只队伍只赢了开场前三局。我们观察到 OpenAI Five 具有以下几个特点:经常来牺牲自己的优势路夜魇军团的上路天辉军团的下路以压制敌人的优势路迫使战斗转移到对手更难防御的一边。该策略在过去几年的专业领域出现过现在已经成为了流行战术。Blitz 说他在打 DOTA 8 年后才学到了这个战术当时是 Liquid一支职业队伍告诉了他。比赛初期到中期的转换比对手更快。它是这样做到的1在人类玩家走位出问题时进行多次成功 gank2在对方组织起反抗前去组队推塔。在一些领域机器有时也会偏离主流打法例如在前期将钱和经验让给辅助英雄这些英雄一般不优先获取资源。OpenAI Five 的优先级使它获得的伤害更快达到顶峰从而建立起更大的优势赢得团战以及利用对方的错误来确保快速取胜。和人类的差异OpenAI Five 获得的信息和人类是一样的但前者可以实时看到位置、生命值和装备清单等而这些信息都需要人类选手去手动查看。我们的方法从根本上就没有依赖于实时观察状态但从游戏中渲染像素就需要成千上万块 GPU。OpenAI Five 平均每分钟可进行 150-170 次操作APM150-170因为每四帧观察一次所以理论峰值为 450。熟练的玩家有可能掌握完美捕捉画面的时机但这对机器来说轻而易举。OpenAI Five 的平均反应时间为 80 毫秒比人类更快。这些差异在 1V1 中影响最大当时我们机器人的反应时间为 67 毫秒但竞技是相对公平的因为我们已经看到人类在学习和适应机器人的打法。在去年 TI 之后很多专业选手使用我们的 1V1 机器人进行了为期数月的训练。William *Blitz* Lee前 DOTA2 专业选手和教练表示1V1 机器人已经改变了我们对单挑的传统看法机器人采取了快节奏的打法现在每个人都已经试着去跟着这个节奏。令人惊讶的发现二元奖励可以给予良好的表现。我们的 1v1 模型具有形状奖励包括上次命中奖励杀戮等。我们进行了一个实验只奖励代理的获胜或失败并且让它在中间训练了一个数量级较慢并且稍微平稳的阶段与我们平常看到的平滑学习曲线形成对比。该实验在 4500 个核心和 16 个 k80 GPU 上进行训练训练至半专业级70 TrueSkill而非我们最好的 1v1 机器人的 90 TrueSkill。我们可以从头开始学习卡兵。对 1v1 来说我们使用传统的强化学习和一个卡兵奖励a creep block award来学习卡兵。我们的一个同事在去度假前去和未婚妻求婚留下了 2v2 模型打算看看需要多久的训练能才提高表现。令他惊讶的是这个模型在没有任何指导或奖励的情况下学会了卡兵。我们仍在修复系统漏洞。下图显示了击败业余玩家的训练代码相比之下我们只是修复了一些漏洞比如训练期间的罕见崩溃或者导致达到 25 级的巨大负面奖励的错误。事实证明我们可以在隐藏严重漏洞的情况下依然击败优秀的人类玩家Open AI Dota 的一个子团队手托去年在 Dota 2 国际邀请赛 1v1 上击败世界顶级专业玩家的笔记本电脑。下一步计划Open AI 的团队专注于达成八月份制定的目标。我们不知道它是否可以实现但是我们相信通过自身的努力和运气机会还是很大的。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://wiki.neutronadmin.com/news/362767/