当前位置: 首页 > news >正文

请问网上有没有比较好的网站可以做照片书的呀?要求质量比较好的!东莞创建网站

请问网上有没有比较好的网站可以做照片书的呀?要求质量比较好的!,东莞创建网站,购物网站开发要解决的问题,嘉兴市做外贸网站的1 引言 马尔可夫性#xff1a;无后效性#xff0c;指系统的下个状态只与当前状态信息有关#xff0c;而与更早之前的状态无关#xff1b; 马尔可夫链(Markov Chain, MC)#xff1a;系统的下一个状态只与当前状态相关#xff1b; 马尔可夫决策过程(Markov Decision Proce…1 引言 马尔可夫性无后效性指系统的下个状态只与当前状态信息有关而与更早之前的状态无关 马尔可夫链(Markov Chain, MC)系统的下一个状态只与当前状态相关 马尔可夫决策过程(Markov Decision Process, MDP)具有马尔可夫性与MC不同的是MDP还考虑了动作即系统下个状态不仅和当前的状态有关也和当前采取的动作有关。 以下棋为例我们在某个局面状态sis_isi​走了一步(动作aia_iai​)这时对手的选择导致下个状态si1s_{i1}si1​我们是不能确定的但是他的选择只和sis_isi​和aia_iai​有关而不用考虑更早之前的状态和动作。 2 马尔可夫决策过程 一个马尔可夫决策过程可以由一个四元组表示 M(S,A,Psa,R)(1)M (S, A, P_{sa}, R) \tag1M(S,A,Psa​,R)(1) S{s1,s2,…,sk}S \{s_1, s_2, \dots, s_k\}S{s1​,s2​,…,sk​}状态集(states)sis_isi​表示第iii步的状态;A{a1,a2,…,ak}A \{a_1, a_2, \dots, a_k\}A{a1​,a2​,…,ak​}一组动作(actions)aia_iai​表示第iii步的动作;PsaP_{sa}Psa​状态转移概率当前si∈Ss_i \in Ssi​∈S状态下经过ai∈Aa_i \in Aai​∈A作用后会转移到的其它状态的概率分布情况例如比如在状态si∈Ss_i \in Ssi​∈S下执行动作ai∈Aa_i \in Aai​∈A转移到si1∈Ss_{i1} \in Ssi1​∈S的概率可以表示为p(si1∣si,ai)p(s_{i1} \vert s_i, a_i)p(si1​∣si​,ai​);R:S×A↦RR: S \times A \mapsto \mathbb{R}R:S×A↦R回报函数(reward function)如果回报只与状态有关可以简化为R:S↦RR: S \mapsto \mathbb{R}R:S↦R。如果一组(si,ai)(s_{i},a_i)(si​,ai​)转移到了下个状态si1s_{i1}si1​那么回报函数可记为r(si1∣si,ai)r(s_{i1}|s_i, a_i)r(si1​∣si​,ai​)。如果(si,ai)(s_i,a_i)(si​,ai​)对应的下个状态si1s_{i1}si1​是唯一的那么回报函数也可以记为r(si,ai)r(s_i,a_i)r(si​,ai​)。 MDP 的动态过程如下 智能体(agent)的初始状态为s0s_0s0​;从 AAA 中挑选一个动作a0a_0a0​执行执行后agent 按PsaP_{sa}Psa​概率随机转移到了下一个s1s_1s1​状态s1∈Ps0a0s_1 \in P_{s_0a_0}s1​∈Ps0​a0​​。然后再执行一个动作a1a_1a1​就转移到了s2s_2s2​接下来再执行a2a_2a2​…可以用下面的图表示状态转移的过程 如果回报rir_iri​是根据状态sis_isi​和动作aia_iai​得到的则MDP可以如图表示 3 值函数(value function) 增强学习学到的是一个从环境状态到动作的映射即行为策略记为策略π:S→Aπ: S→Aπ:S→A。而增强学习往往又具有延迟回报的特点: 如果在第nnn步输掉了棋那么只有状态sns_nsn​和动作ana_nan​获得了立即回报r(sn,an)−1r(s_n,a_n)-1r(sn​,an​)−1前面的所有状态立即回报均为0。所以对于之前的任意状态sss和动作aaa立即回报函数r(s,a)r(s,a)r(s,a)无法说明策略的好坏。因而需要定义值函数(value function又叫效用函数)来表明当前状态下策略πππ的长期影响。 Vπ(s)V^π(s)Vπ(s)策略πππ下状态sss的值函数rir_iri​未来第iii步的立即回报。 常见的值函数有以下三种 Vπ(s)Eπ[∑i0hri∣s0s](2)V^π(s) E_{\pi}\left[\sum_{i0}^{h} r_i \vert s_0 s \right] \tag2Vπ(s)Eπ​[i0∑h​ri​∣s0​s](2) Vπ(s)lim⁡h→∞Eπ[1h∑i0hri∣s0s](3)V^π(s) \lim_{h \rightarrow \infty}E_{\pi}\left[\frac{1}{h}\sum_{i0}^{h} r_i \vert s_0 s \right] \tag3Vπ(s)h→∞lim​Eπ​[h1​i0∑h​ri​∣s0​s](3) Vπ(s)Eπ[∑i0∞γiri∣s0s](4)V^π(s) E_{\pi}\left[\sum_{i0}^{\infty} \gamma^{i} r_i \vert s_0 s \right] \tag4Vπ(s)Eπ​[i0∑∞​γiri​∣s0​s](4) 其中 a) 是采用策略π的情况下未来有限h步的期望立即回报总和 b) 是采用策略π的情况下期望的平均回报 c) 是值函数最常见的形式式中γ∈[0,1]γ∈[0,1]γ∈[0,1]称为折合因子表明了未来的回报相对于当前回报的重要程度。特别的γ0γ0γ0时相当于只考虑立即不考虑长期回报γ1γ1γ1时将长期回报和立即回报看得同等重要。 4 策略 5 对2048游戏的建模 s1s_1s1​ 初始化状态随机产生的棋盘 a1a_1a1​用户连接相同的数字后系统为棋盘分配新数字的动作 s2s_2s2​用户选择如何连线后导致的下一个棋盘该棋盘依然有空缺需要填充新数字 p(s2∣s1,a1)p(s_{2} \vert s_1, a_1)p(s2​∣s1​,a1​)经过a1a_1a1​操作后状态从s1s_1s1​到s2s_2s2​的概率这个我觉得可以通过统计得到 奖励函数是设计的难点 如何进行训练也是一个难点
http://www.yutouwan.com/news/399946/

相关文章:

  • vps怎么建多个网站页面模板是什么
  • 网站经常修改好不好wordpress更换域名后登陆不了后台
  • 做网站哪家公司好企业网站建设开发成本利润多少
  • 网站建设丨金手指排名网站文章只被收录网站首页
  • 做网站是不是涉及很多语言职重庆建设机电有限公司网站
  • 广州网站设计公司济南兴田德润o简介图片北京网站制作公司报价
  • 网站制作设及的技术公众号开发者密码
  • 网站免费建站系统网站如何实现多语言
  • 搜索引擎网站推广网站建设 面试
  • 咸阳网站建设培训学校低价网站建设公司
  • 自己有域名要怎么制作网站网站建设有什么优势
  • 网站建立需要什么如何用网站开发工具停止网页进程
  • 长春网站制作都找源晟27微信朋友圈广告在哪里做
  • 网站在线支付方案俄罗斯网站设计
  • html做分页的网站wordpress 首页设计
  • 易企秀 旗下 网站建设如何做自己的小说网站
  • 网站开发需要经过的几个主要阶段logo网站免费
  • 网站标题特殊符号wordpress获取子菜单
  • 做电商都需要什么佛山市seo推广
  • 南通网络科技的公司网站wordpress采集文章教程
  • 如何做单页网站视频潍坊在线制作网站
  • 购物网站的搜索框用代码怎么做网络推广公司运营
  • 域名注册服务网站查询3d绘图培训学校
  • 希腊网站后缀seo公司排行
  • niche网站建设服装微商城网站建设
  • 网站建设的目的及意义卫计网站建设工作计划
  • 怎么能查到网站是哪家公司做的云羽网络网站建设
  • 京东商城的网站建设ps做电商网站流程图
  • html5网站尺寸设计师常用素材网站
  • 建设银行网站如何下载u盾关于建设网站的请示