前面对整书有了一个大致了解,接下来就进入到各章节的阅读。阅读遵从理解,归纳总结,举一反三,灵活运用。尽信书则不如无书,也会根据实践经验做出必要取舍去学习。
第一章讲的是强化学习概念。深度强化学习(DRL)是机器学习的一个子领域,它将深度学习模型(神经网络)应用于强化学习任务中。
这个概念接着讲了比较经典的例子。参数集经过模型训练生成类别标签,经过参数调整,使函数在正确分类任务上表现得越来越好。经过训练的模型,用任务数据输入,进行结果进行预测、检测。这里面也涉及到归一化成概率问题[0,1],即用猫的图片给模型检测,是猫的概率和非猫的概率,经过多种不同的猫照,模型结果输出前者越接近1、后者0,说明训练的模型更健壮。
强化学习 是表示和解决控制任务的通用框架,在该框架中,我们可以自由选择应用于特定控制任务的算法。这里面讲到了一个通过正向/负向奖励来强化任务,改进学习算法,不断优化到令人满意。
动态规划即将高级任务分解成更小的子问题,直到分解成不需要进一步信息就可以解决的简单子问题,以此反向来解决复杂的高级问题。其可称为目标分解。
蒙特卡洛法,本质是对环境进行随机抽样,试错策略通常属于其范畴。这个有点像我们写代码设定条件判断,符合相应条件即去执行相关逻辑任务。
学习算法称之为智能体,它会重复这个循环:处理信息状态,决定采取什么动作,看是否得到奖励,观察新状态,采取另一动作,等等。
关于强化学习现实生活中的实例,该章讲到了AlphoGo与人类玩家下围棋,这个前几年新闻里也是有报道过的。
强化学习的教学工具--线图,属于一种图形语言。机器学习涉及大量的矩阵和向量操作,线图尤其适合图形化描述这种类型的操作,线图也非常适合描述复杂过程。
本章笔记与理解相随,也是强化学习效果。另外文中赛车游戏代码(page12) 我有的PyCharm IDE里安装了依赖模块,运行没成功,提示到v2,做了些代码更改,也没能跑出UI界面。附件贴出尝试运行代码截图,在此欢迎共读此书的小伙伴一起交流学习运用实例。
现在能静下心来,读读专业书,已经了不起了
况且《深度强化学习实战》是很有专业技术特点的这种