Python深度强化学习：基于Chainer和OpenAI Gym

定　价：¥79.00

作　者：	[日] 牧野浩二（Koji Makino），[日] 西崎博光(Hiromitsu Nishizaki）著，申富饶，于僡译
出版社：	机械工业出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787111692584	出版时间：	2021-12-01	包装：	平装
开本：	16开	页数：	228	字数：

内容简介

　　本书基于强化学的库Chainer（Chainere）和AI模拟环境的OpenAI gym-不仅仅是软件模拟-也详述了使用RaspbbilryPi和ARduino的实际环境的应用。

作者简介

暂缺《Python深度强化学习：基于Chainer和OpenAI Gym》作者简介

图书目录

译者序
前言
第1章　引言 1
11　深度强化学习可以做什么 1
12　本书的结构 4
13　框架：Chainer和ChainerRL 6
14　Python的运行检查 6
15　Chainer的安装 9
16　ChainerRL的安装 12
17　模拟器：OpenAI Gym 14
第2章　深度学习 17
21　什么是深度学习 17
22　神经网络 18
23　基于Chainer的神经网络 21
231　Chainer与神经网络的对应 24
232　Chainer程序 25
233　参数设置 26
234　创建数据 27
235　定义神经网络 27
236　各种声明 28
237　显示训练状态 28
238　保存训练状态 31
239　执行训练 32
24　与其他神经网络的对应 32
241　感知器 32
242　5层神经网络（深度学习） 33
243　计算输入中的1的数量 34
25　基于深度神经网络的手写数字识别 35
251　手写数字的输入格式 36
252　深度神经网络的结构 39
253　8×8的手写数字数据 41
26　基于卷积神经网络的手写数字识别 43
261　卷积 45
262　激活函数 49
263　池化 49
264　执行 50
27　一些技巧 53
271　读取文件数据 54
272　使用训练模型 55
273　重启训练 56
274　检查权重 56
275　从文件中读取手写数字 57
第3章　强化学习 59
31　什么是强化学习 59
311　有监督学习 60
312　无监督学习 60
313　半监督学习 60
32　强化学习原理 61
33　通过简单的示例来学习 61
34　应用到Q学习问题中 63
341　状态 63
342　行动 63
343　奖励 63
344　Q值 64
35　使用Python进行训练 67
351　运行程序 67
352　说明程序 69
36　基于OpenAI Gym的倒立摆 73
361　运行程序 73
362　说明程序 74
37　如何保存和加载Q值 79
第4章　深度强化学习 81
41　什么是深度强化学习 81
42　对于老鼠学习问题的应用 83
421　运行程序 83
422　说明程序 85
423　如何保存和读取智能体模型 91
43　基于OpenAI Gym的倒立摆 91
431　运行程序 91
432　说明程序 92
44　基于OpenAI Gym的太空侵略者 97
45　基于OpenAI Gym的颠球 99
451　运行程序 101
452　说明程序 102
46　对战游戏 109
461　黑白棋 109
462　训练方法 111
463　变更盘面 121
464　黑白棋实体 121
465　如何与人类对战 123
466　卷积神经网络的应用 127
47　使用物理引擎进行模拟 128
471　物理引擎 129
472　运行程序 130
473　说明程序 131
48　物理引擎在颠球问题中的应用 132
49　物理引擎在倒立摆问题中的应用 140
410　物理引擎在机械臂问题中的应用 144
411　使用其他深度强化学习方法 151
4111　深度强化学习的类型 151
4112　将训练方法更改为DDQN 153
4113　将训练方法更改为PER-DQN 153
4114　将训练方法更改为DDPG 153
4115　将训练方法更改为A3C 155
第5章　实际环境中的应用 157
51　使用摄像机观察环境（MNIST） 157
511　摄像机设置 158
512　通过卷积神经网络对摄像机图像进行分类 160
513　使用图像大小为28×28的手写数字进行训练 163
52　实际环境中的老鼠学习问题 164
53　使用Raspberry Pi处理老鼠学习问题 168
531　环境构建 169
532　以输入输出为重点的简化 169
533　使用摄像机测量环境 176
54　使用Arduino + PC处理老鼠学习问题 181
541　环境构建 182
542　以输入输出为重点的简化 185
543　使用摄像机测量环境 193
55　使用Raspberry Pi + Arduino处理老鼠学习问题 197
56　结语 201
附录 202