本书作者创办了自己名字命名的研究型公司,本书涵盖了从基本的构建模块到最z先进的实践。通过本书,你将探索强化学习的当前状态、关注工业应用、学习大量算法,本书还有专门章节介绍如何将强化学习的解决方案部署到生产环节。这并不是一本随用随翻的工具书,书中包含很多数学知识,并期望读者是熟悉机器学习的。本书的主要内容有:学习强化学习是什么,以及算法如何解决具体问题。掌握强化学习的基础知识,包括马尔可夫决策过程、动态规划和时间差分算法。深入研究一系列基于值函数和政策梯度的算法。应用先进的强化学习解决方案,如元学习、分层学习、多智能体、模仿学习等。了解最z前沿的深度强化学习算法,包括Rainbow、PPO、TD3、SAC等。通过本书专门的配套网站获得实践代码和案例。