(Mdp)马尔可夫决策过程
作者:互联网
马尔可夫决策过程(MDP)的原始模型是马尔可夫链(Markov Chain, MC),下面先学习一些MC的内容:
- 马尔可夫性当前状态包含了对未来预测所需要的有用信息,过去信息对未来预测不重要,该就满足了马尔科夫性,严格来说,就是某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,即Xt只与Xt-1有关,与{X0,X1,X2.....,Xt-2}无关,则认为该状态具有马尔科夫性。用公式描
而具有马尔可夫性的随机序列X= {X0,X1.......,Xt,....}就是马尔可夫链。
2. 离散状态的马尔可夫链:由定义在S空间的随机变量Xt(t= 0,1,2....)转移概率Pij。
Pij= (Xt =i | Xt-1=j),i=1,2,..... j=1,2......
其转移概率Pij可表示为状态转移矩阵:P,满足Pij>=0 且矩阵P的列向量之和为1.
标签:状态,Pij,决策,马尔可夫,.....,Mdp,X1,Xt 来源: https://www.cnblogs.com/wukaiqi/p/13741143.html