《深入浅出强化学习:编程实战》是《深入浅出强化学习:原理入门》的姊妹篇,写作的初衷是通过编程实例帮助那些想要学习强化学习算法的读者更深入、更清楚地理解算法。 本书首先介绍马尔可夫决策过程的理论框架,然后介绍基于动态规划的策略迭代算法和值迭代算法,在此基础上分3 篇介绍了目前强化学习算法中最基本的算法。第1 篇讲解基于值函数的强化学习算法,介绍了基于两种策略评估方法(蒙特卡洛策略评估和时间差分策略评估)的强化学习算法,以及如何将函数逼近的方法引入强化学习算法中。第2 篇讲解直接策略搜索方法,介绍了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。第3 篇讲解基于模型的强化学习方法,介绍了基于MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具体实现细节。建议读者根据书中的代码亲自动手编程,并修改程序中的超参数,根据运行结果不断体会算法原理。