很高兴收到书啊,上照片:
未来的计算机语言将更关注目标,而不太关注同程序员指定的过程。
————————马文.明斯基
这句话我很反感,因为我从事的工作就是程序员指定的过程。不指定过程要单片机程序员干么?
深度强化学习:是机器学习的一个子领域,它将深度学习(神经网络)应用于强化学习任务。
强化学习:是表示和解决控制任务的通用框架,在该框架中,我们可以自由选择应用于特定控制任务的算法。
它们俩之间的关系:书中说得明白:深度学习是机器学习的一个子领域,可以为强化学习解决控制任务提供支持。
试错策略通常属于蒙特卡洛法的范畴。蒙特卡洛法本质上是对环境进行随机抽样。
强化学习(或控制任务)和普通的监督学习之间的一个关键区别是:在控制任务中,强化学习算法需要做出决策和采取动作,这些动作会影响将来发生的事情。在强人学习框架中,采取动作是一个关键词,它的含义或多或少是你所期望的。不过,所采取的每个动作都是分析当前环境状态和尝试基于该信息做出最佳决策的结果。
强化学习框架的最后一个概念是,采取每个动作后,算法会得到一个奖励(reward).奖励是局部信号,用于表示学习算法在实现总体目标方面的表现如何。虽然我们将其管为“奖励”但它可以是正向信号(做得好,继续保持),也可以负向信号(不要那样做)。
最后,我们为该算法取个好听的名字,称之为智能体(agent).
因为这是一本关于深度强化学习的书,所以我们会用深度学产算法(也称为深度神经网络)来实现智能体。
可见这本书还是讲神经网络的。