注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术工业技术建筑科学建筑设计Python强化学习实战:应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

Python强化学习实战:应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

Python强化学习实战:应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

定 价:¥69.00

作 者: (印度)苏达桑·拉维尚迪兰 著
出版社: 机械工业出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787111612889 出版时间: 2018-12-01 包装: 平装
开本: 16开 页数: 字数:  

内容简介

  强化学习是一种重要的机器学习方法,在智能体及分析预测等领域有许多应用。《Python强化学习实战:应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习》共13章,主要包括强化学习的各种要素,即智能体、环境、策略和模型以及相应平台和库;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安装配置;马尔可夫链和马尔可夫过程及其与强化学习问题建模之间的关系,动态规划的基本概念;蒙特卡罗方法以及不同类型的蒙特卡罗预测和控制方法;时间差分学习、预测、离线/在线策略控制等;多臂赌博机问题以及相关的各种探索策略方法;深度学习的各种基本概念和RNN、LSTM、CNN等神经网络;深度强化学习算法DQN,以及双DQN和对抗网络体系结构等改进架构;DRQN以及DARQN;A3C网络的基本工作原理及架构;策略梯度和优化问题;*后介绍了强化学习的*新进展以及未来发展。

作者简介

  作者简介Sudharsan Ravichandiran 是一位数据科学家、研究员、人工智能爱好者以及 YouTuber(搜索 Sudharsan reinforcement learning),获得了 Anna 大学信息技术学士学位。他的研究领域包括深度学习和强化学习的实现,其中包括自然语言处理和计算机视觉。他曾是一名自由职业的网页开发人员和设计师,所设计开发的网站屡获殊荣,同时也热衷于开源,擅长解答堆栈溢出问题。原书审稿人简介Sujit Pal 是 Elsevier 实验室的技术研究总监, Elsevier 实验室是 Reed-Elservier 集团公司下的一个先进技术团队,研究领域包括语义检索、自然语言处理、机器学习和深度学习。他在 Elsevier 实验室主要从事搜索质量检测与改进、图像分类和重复率检测、医学和科学语料库的标注与本体开发。他曾与 Antonio Gulli 合作撰写了一本关于深度学习的著作,并在博客 Slamon Run 上撰写了一些科技文章。Suriyadeepan Ramamoorthy 是一名来自印度 Puducherry 的 AI 研究人员和工程师,主要研究领域是自然语言理解和推理,同时积极撰写有关深度学习的博客文章。在 SAAMA 技术中,他将先进的深度学习技术应用于生物医学文本分析,同时也是一名积极推动 FSFTN领域发展的免费软件宣传者,另外对社交网络、数据可视化和创造性编程也非常感兴趣。

图书目录

译者序 

原书前言 

第1章 强化学习简介 //1 

1.1 什么是强化学习 //1 

1.2 强化学习算法 //2 

1.3 强化学习与其他机器学习范式的不同 //3 

1.4 强化学习的要素 //3 

1.4.1 智能体 //3 

1.4.2 策略函数 //3 

1.4.3 值函数 //4 

1.4.4 模型 //4 

1.5 智能体环境接口 //4 

1.6 强化学习的环境类型 //5 

1.6.1 确定性环境 //5 

1.6.2 随机性环境 //5 

1.6.3 完全可观测环境 //5 

1.6.4 部分可观测环境 //5 

1.6.5 离散环境 //5 

1.6.6 连续环境 //5 

1.6.7 情景和非情景环境 //5 

1.6.8 单智能体和多智能体环境 //6 

1.7 强化学习平台 //6 

1.7.1 OpenAI Gym和Universe //6 

1.7.2 DeepMind Lab //6 

1.7.3 RLGlue //6 

1.7.4 Project Malmo //6 

1.7.5 VizDoom //6 

1.8 强化学习的应用 //7 

1.8.1 教育 //7 

1.8.2 医疗和健康 //7 

1.8.3 制造业 //7 

1.8.4 库存管理 //7 

1.8.5 金融 //7 

1.8.6 自然语言处理和计算机视觉 //7 

1.9 小结 //8 

1.10 问题 //8 

1.11 扩展阅读 //8 

第2章 从OpenAI和TensorFlow入门 //9 

2.1 计算机设置 //9 

2.1.1 安装Anaconda //9 

2.1.2 安装Docker //10 

2.1.3 安装OpenAI Gym和Universe //11 

2.2 OpenAI Gym //13 

2.2.1 基本模拟 //13 

2.2.2 训练机器人行走 //14 

2.3 OpenAI Universe //16 

2.3.1 构建一个视频游戏机器人 //16 

2.4 TensorFlow //20 

2.4.1 变量、常量和占位符 //20 

2.4.2 计算图 //21 

2.4.3 会话 //21 

2.4.4 TensorBoard //22 

2.5 小结 //25 

2.6 问题 //25 

2.7 扩展阅读 //25 

第3章 马尔可夫决策过程和动态规划 //26 

3.1 马尔可夫链和马尔可夫过程 //26 

3.2 MDP //27 

3.2.1 奖励和回报 //28 

3.2.2 情景和连续任务 //28 

3.2.3 折扣因数 //28 

3.2.4 策略函数 //29 

3.2.5 状态值函数 //29 

3.2.6 状态—行为值函数(Q函数)//30 

3.3 Bellman方程和最优性 //30 

3.3.1 推导值函数和Q函数的Bellman方程 //31 

3.4 求解Bellman方程 //32 

3.4.1 动态规划 //32 

3.5 求解冰冻湖问题 //38 

3.5.1 值迭代 //39 

3.5.2 策略迭代 //43 

3.6 小结 //45 

3.7 问题 //45 

3.8 扩展阅读 //46 

第4章 基于蒙特卡罗方法的博弈游戏 //47 

4.1 蒙特卡罗方法 //47 

4.1.1 利用蒙特卡罗方法估计π值 //47 

4.2 蒙特卡罗预测 //50 

4.2.1 首次访问蒙特卡罗 //51 

4.2.2 每次访问蒙特卡罗 //52 

4.2.3 利用蒙特卡罗方法玩二十一点游戏 //52 

4.3 蒙特卡罗控制 //58 

4.3.1 蒙特卡罗探索开始 //58 

4.3.2 在线策略的蒙特卡罗控制 //59 

4.3.3 离线策略的蒙特卡罗控制 //61 

4.4 小结 //62 

4.5 问题 //62 

4.6 扩展阅读 //63 

第5章 时间差分学习 //64 

5.1 时间差分学习 //64 

5.2 时间差分预测 //64 

5.3 时间差分控制 //66 

5.3.1 Q学习 //66 

5.3.2 SARSA //72 

5.4 Q学习和SARSA之间的区别 //77 

5.5 小结 //77 

5.6 问题 //78 

5.7 扩展阅读 //78 

第6章 MAB问题 //79 

6.1 MAB问题 //79 

6.1.1 ε贪婪策略 //80 

6.1.2 Softmax探索算法 //82 

6.1.3 UCB算法 //83 

6.1.4 Thompson采样算法 //85 

6.2 MAB的应用 //86 

6.3 利用MAB识别正确的广告标识 //87 

6.4 上下文赌博机 //89 

6.5 小结 //89 

6.6 问题 //89 

6.7 扩展阅读 //89 

第7章 深度学习基础 //90 

7.1 人工神经元 //90 

7.2 ANN //91 

7.2.1 输入层 //92 

7.2.2 隐层 //92 

7.2.3 输出层 //92 

7.2.4 激活函数 //92 

7.3 深入分析ANN //93 

7.3.1 梯度下降 //95 

7.4 TensorFlow中的神经网络 //99 

7.5 RNN //101 

7.5.1 基于时间的反向传播 //103 

7.6 LSTM RNN //104 

7.6.1 利用LSTM RNN生成歌词 //105 

7.7 CNN //108 

7.7.1 卷积层 //109 

7.7.2 池化层 //111 

7.7.3 全连接层 //112 

7.7.4 CNN架构 //112 

7.8 利用CNN对时尚产品进行分类 //113 

7.9 小结 //117 

7.10 问题 //117 

7.11 扩展阅读 //118 

第8章 基于DQN的Atari游戏 //119 

8.1 什么是DQN //119 

8.2 DQN的架构 //120 

8.2.1 卷积网络 //120 

8.2.2 经验回放 //121 

8.2.3 目标网络 //121 

8.2.4 奖励裁剪 //122 

8.2.5 算法理解 //122 

8.3 构建一个智能体来玩Atari游戏 //122 

8.4 双DQN //129 

8.5 优先经验回放 //130 

8.6 对抗网络体系结构 //130 

8.7 小结 //131 

8.8 问题 //132 

8.9 扩展阅读 //132 

第9章 基于DRQN玩Doom游戏 //133 

9.1 DRQN //133 

9.1.1 DRQN架构 //134 

9.2 训练一个玩Doom游戏的智能体 //135 

9.2.1 基本的Doom游戏 //135 

9.2.2 基于DRQN的Doom游戏 //136 

9.3 DARQN //145 

9.3.1 DARQN架构 //145 

9.4 小结 //145 

9.5 问题 //146 

9.6 扩展阅读 //146 

第10章 A3C网络 //147 

10.1 A3C //147 

10.1.1 异步优势行为者 //147 

10.1.2 A3C架构 //148


本目录推荐