统计策略搜索强化学习方法及应用

定　价：¥79.00

作　者：	赵婷婷著
出版社：	电子工业出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787121419591	出版时间：	2021-09-01	包装：	平装
开本：	16开	页数：	180	字数：

内容简介

　　智能体AlphaGo战胜人类围棋专家刷新了人类对人工智能的认识，也使得其核心技术强化学习受到学术界的广泛关注。本书正是在如此背景下，围绕作者多年从事强化学习理论及应用的研究内容及国内外关于强化学习的最近动态等方面展开介绍，是为数不多的强化学习领域的专业著作。该著作侧重于基于直接策略搜索的强化学习方法，结合了统计学习的诸多方法对相关技术及方法进行分析、改进及应用。本书以一个全新的现代角度描述策略搜索强化学习算法。从不同的强化学习场景出发，讲述了强化学习在实际应用中所面临的诸多难题。针对不同场景，给定具体的策略搜索算法，分析算法中估计量和学习参数的统计特性，并对算法进行应用实例展示及定量比较。特别地，本书结合强化学习前沿技术将策略搜索算法应用到机器人控制及数字艺术渲染领域，给人以耳目一新的感觉。最后根据作者长期研究经验，对强化学习的发展趋势进行了简要介绍和总结。本书取材经典、全面，概念清楚，推导严密，以期形成一个集基础理论、算法和应用为一体的完备知识体系。

作者简介

　　赵婷婷，天津科技大学人工智能学院副教授，主要研究方向为人工智能、机器学习。中国计算机协会（CCF）会员、YOCSEF 会员、中国人工智能学会会员、人工智能学会模式识别专委会委员，2017年获得天津市131”创新型人才培养工程第二层次人选称号。

图书目录

第1章强化学习概述??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????1
1．1 机器学习中的强化学习????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????1
1．2 智能控制中的强化学习????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????4
1．3 强化学习分支????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????8
1．4 本书贡献??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????11
1．5 本书结构??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????12
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????14
第2章相关研究及背景知识??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????19
2．1 马尔可夫决策过程????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????19
2．2 基于值函数的策略学习算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????21
2．2．1 值函数??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????21
2．2．2 策略迭代和值迭代????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????23
2．2．3 Q-learning ????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????25
2．2．4 基于最小二乘法的策略迭代算法??????????????????????????????????????????????????????????????????????????????????????????27
2．2．5 基于值函数的深度强化学习方法??????????????????????????????????????????????????????????????????????????????????????????29
2．3 策略搜索算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????30
2．3．1 策略搜索算法建模????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????31
2．3．2 传统策略梯度算法（REINFORCE算法）????????????????????????????????????????????????????????????32
2．3．3 自然策略梯度方法（Natural Policy Gradient）????????????????????????????????????????????????33
2．3．4 期望最大化的策略搜索方法??????????????????????????????????????????????????????????????????????????????????????????????????????????35
2．3．5 基于策略的深度强化学习方法??????????????????????????????????????????????????????????????????????????????????????????????????37
2．4 本章小结??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????38
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????39
第3章策略梯度估计的分析与改进??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????42
3．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????42
3．2 基于参数探索的策略梯度算法（PGPE算法）??????????????????????????????????????????????????????????????????????44
3．3 梯度估计方差分析????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????46
3．4 基于最优基线的算法改进及分析??????????????????????????????????????????????????????????????????????????????????????????????????????????????????48
3．4．1 最优基线的基本思想????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????48
3．4．2 PGPE算法的最优基线????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????49
3．5 实验??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????51
3．5．1 示例??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????51
3．5．2 倒立摆平衡问题????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????57
3．6 总结与讨论????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????58
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????60
第4章基于重要性采样的参数探索策略梯度算法????????????????????????????????????????????????????????????????????????????????????63
4．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????63
4．2 异策略场景下的PGPE算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????64
4．2．1 重要性加权PGPE算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????65
4．2．2 IW-PGPE算法通过基线减法减少方差????????????????????????????????????????????????????????????????????????66
4．3 实验结果??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????68
4．3．1 示例??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????69
4．3．2 山地车任务????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????78
4．3．3 机器人仿真控制任务????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????81
4．4 总结和讨论????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????88
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????89
第5章方差正则化策略梯度算法??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????91
5．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????91
5．2 正则化策略梯度算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????92
5．2．1 目标函数????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????92
5．2．2 梯度计算方法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????94
5．3 实验结果??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????95
5．3．1 数值示例????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????95
5．3．2 山地车任务????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????101
5．4 总结和讨论????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????102
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????103
第6章基于参数探索的策略梯度算法的采样技术????????????????????????????????????????????????????????????????????????????????105
6．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????105
6．2 基于参数探索的策略梯度算法中的采样技术????????????????????????????????????????????????????????????????????????107
6．2．1 基线采样????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????108
6．2．2 最优基线采样????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????109
6．2．3 对称采样????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????109
6．2．4 超对称采样????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????111
6．2．5 多模态超对称采样????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????116
6．2．6 SupSymPGPE 的奖励归一化????????????????????????????????????????????????????????????????????????????????????????????????????117
6．3 数值示例实验????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????119
6．3．1 平方函数????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????120
6．3．2 Rastrigin函数????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????120
6．4 本章总结??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????124
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????125
第7章基于样本有效重用的人形机器人的运动技能学习??????????????????????????????????????????????????????????127
7．1 研究背景：真实环境下的运动技能学习??????????????????????????????????????????????????????????????????????????????????????127
7．2 运动技能学习框架????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????128
7．2．1 机器人的运动路径和回报??????????????????????????????????????????????????????????????????????????????????????????????????????????????128
7．2．2 策略模型????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????129
7．2．3 基于PGPE算法的策略学习方法??????????????????????????????????????????????????????????????????????????????????????129
7．3 有效重用历史经验????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????130
7．3．1 基于重要性加权的参数探索策略梯度算法
（IW-PGPE算法）??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????130
7．3．2 基于IW-PGPE算法的运动技能学习过程??????????????????????????????????????????????????????????131
7．3．3 递归型IW-PGPE算法????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????132
7．4 虚拟环境中的车杆摆动任务??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????133
7．5 篮球射击任务????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????137
7．6 讨论与结论????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????140
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????142
第8章基于逆强化学习的艺术风格学习及水墨画渲染??????????????????????????????????????????????????????????????????145
8．1 研究背景??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????145
8．1．1 计算机图形学背景????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????146
8．1．2 人工智能背景????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????147
8．1．3 面向艺术风格化的渲染系统??????????????????????????????????????????????????????????????????????????????????????????????????????148
8．2 基于强化学习的笔刷智能体建模??????????????????????????????????????????????????????????????????????????????????????????????????????????????148
8．2．1 动作的设计????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????149
8．2．2 状态的设计????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????150
8．3 离线艺术风格学习阶段????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????151
8．3．1 数据采集????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????152
8．3．2 基于逆强化学习的奖励函数学习??????????????????????????????????????????????????????????????????????????????????????153
8．3．3 基于R-PGPE算法的渲染策略学习??????????????????????????????????????????????????????????????????????????????154
8．4 A4系统用户界面????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????155
8．5 实验与结果????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????157
8．5．1 渲染策略学习结果????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????157
8．5．2 基于IRL进行笔画绘制的渲染结果??????????????????????????????????????????????????????????????????????????????160
8．6 本章小结??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????162
参考文献????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????163