on-policy,其进程和上述战略梯度相同实战解析
本文主要是收拾战略迭代的部分,重在阐明原理。李宏毅的视频,见网上。终究阐明OpenAI的默认强化学习算法PPO的部分。(ProximalPolicyOptimization)蓝色标记为有待查阅具体代码。不同于强化学习的值迭代的简单了解和表达,战略迭代更需要耐性、仔细、考虑。​优化方针战略𝜋是能够用,带着练习参数𝜃的神经网络表明。战略𝜋网络,输入当时调查值observation(state),