一起读《深度强化学习实战》- 马尔可夫决策过程MDP以及V、Q函数
理解 马尔可夫性质(Markovproperty),不必知道过去的信息,根据当前的状态就可以做出决策(产生奖励)。 马尔可夫决策过程(MarkovDecisionProcess,MDP),具有马尔可夫性质的控制任务称为MDP 不具备Mp性质的问题可以通过插入状态信息,转换成MDP。例如给病人看病,需要了解过往情况才能判断,但如果将完整的就诊记录作为状态,则就可以变成MDP来解决。 智能体根据t1时刻的状态s1做出的动作a1,则环境产生了t2时刻的s2,这时候产生