[原创] 《深度强化学习实战》第1章读书笔记与理解

dirty 2023-10-30 23:58 楼主

    前面对整书有了一个大致了解，接下来就进入到各章节的阅读。阅读遵从理解，归纳总结，举一反三，灵活运用。尽信书则不如无书，也会根据实践经验做出必要取舍去学习。
   第一章讲的是强化学习概念。深度强化学习(DRL)是机器学习的一个子领域，它将深度学习模型(神经网络)应用于强化学习任务中。
   这个概念接着讲了比较经典的例子。参数集经过模型训练生成类别标签，经过参数调整，使函数在正确分类任务上表现得越来越好。经过训练的模型，用任务数据输入，进行结果进行预测、检测。这里面也涉及到归一化成概率问题[0,1],即用猫的图片给模型检测，是猫的概率和非猫的概率，经过多种不同的猫照，模型结果输出前者越接近1、后者0,说明训练的模型更健壮。
   强化学习 是表示和解决控制任务的通用框架，在该框架中，我们可以自由选择应用于特定控制任务的算法。这里面讲到了一个通过正向/负向奖励来强化任务，改进学习算法，不断优化到令人满意。
   动态规划即将高级任务分解成更小的子问题，直到分解成不需要进一步信息就可以解决的简单子问题，以此反向来解决复杂的高级问题。其可称为目标分解。
   蒙特卡洛法,本质是对环境进行随机抽样，试错策略通常属于其范畴。这个有点像我们写代码设定条件判断，符合相应条件即去执行相关逻辑任务。
   学习算法称之为智能体，它会重复这个循环:处理信息状态，决定采取什么动作，看是否得到奖励，观察新状态，采取另一动作，等等。
   关于强化学习现实生活中的实例，该章讲到了AlphoGo与人类玩家下围棋，这个前几年新闻里也是有报道过的。
   强化学习的教学工具--线图，属于一种图形语言。机器学习涉及大量的矩阵和向量操作，线图尤其适合图形化描述这种类型的操作，线图也非常适合描述复杂过程。