[分享] 读《深度强化学习实战》心得之二

reflectometry   2023-12-16 18:45 楼主

读《深度强化学习实战》心得之二

 

开始了本书基础篇的学习。基础篇包括了马尔科夫决策过程、深度Q网络、策略梯度法和利用演员-评论家算法解决更复杂的问题。应该说一本书的基本部分读起来最为困难,因为这是一个从无到有的过程。

在学习第2章强化学习问题建模:马尔代夫决策过程这一章,需要掌握很多基本概念和定义,如状态空间、环境、奖励、智能体和策略等。需要理解价值函数是任何给定某个相关数据时返回期望奖励的函数,通常表示一个状态-价值函数,这个函数接收一个状态,返回一个始于该状态并根据某个策略执行动作的期望奖励。需要明白马尔科夫决策过程是一种制订决策的过程,可用于在不参考历史状态的情况下做出最好的决策。在本章中给出了PyTorch深度学习的框架,讨论了解决多臂老虎机的问题,开展了平衡探索与利用,以及将问题建模为马尔科夫决策过程及实现一种神经网络解决广告选择问题。其中,在本章开始,给出了同常规的教学方法,即站在原创意提出者的角度考虑问题时所用的一种新方法。要适应这种教学方法,还是有些难度的,

在本书第3章预测最佳状态和动作:深度Q网络学习中,需要理解状态空间、动作空间、状态-价值、动作-价值、策略函数、Q函数、Q-learning、深度Q网络、离线策略学习、在线策略学习、灾难性遗忘、经验回放和目标网络等新概念。讨论了将Q函数实现为神经网络,使用PyTorch构建一个深度Q网络,以及利用经验回放对抗灾难性遗忘和利用目标网络提高学习稳定性问题。心得是适应该书的教学方法,困难极大。还是习惯于小概念,定义,到定理,再用于实际问题讨论的学习模式,

学习第4章策略梯度法过程中,似乎对该书的教学方法有一定的适应。因为有一定的数学基础,对概率、概率分布、退化概率、条件概率等概念还是很清楚的。但是需要认真理解策略、回报等新概念。策略梯度法是一种强化学习算法,是通过将一个参数作为策略函数来直接学习策略,并训练它来基于观测到的奖励增加动作概率,详细讲解了将策略函数实现成神经网络的方法,介绍了OpenAIGym API以及将REINFORCE算法应用于OpenAI中的CartPole。这一章,相对较短,读起来要愉悦得多。

第5章利用演员-评论家算法解决更复杂的问题,读起来就不是那么愉悦了。改章首先讨论了REINFORCE的局限性,引入演员-评论家算法来提高抽样效率及减少方差,利用优势函数来加速收敛以及通过并行训练来加速模型。知道了Q-learning学习预测给定状态和动作下的贴现奖励;策略算法学习给定状态下动作的概率分布,和演员-评论家组合了一个Q学习者和一个策略学习者。

总之,在基础篇的学习过程中,有太多的新概念需要掌握,这需要耐心。希望剩下的进阶篇读起来不是那么困难了。但是,收获还是很多,感谢有这个几会来读这本宝典!

回复评论

暂无评论,赶紧抢沙发吧
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 京公网安备 11010802033920号
    写回复