第1章 强化学习概述 1
1.1 强化学习模型及其基本要素 2
1.1.1 强化学习模型 2
1.1.2 强化学习基本要素 3
1.2 强化学习的发展历史 5
1.2.1 试错学习 5
1.2.2 动态规划与最优控制 6
1.2.3 时间差分学习 7
1.3 强化学习研究概述 7
1.3.1 分层强化学习研究现状 8
1.3.2 近似强化学习研究现状 10
1.3.3 启发式回报函数设计研究现状 15
1.3.4 探索和利用平衡研究现状 16
1.3.5 基于谱图理论的强化学习研究现状 17
1.4 强化学习方法的应用 19
1.4.1 自适应优化控制中的应用 19
1.4.2 调度管理中的应用 22
1.4.3 人工智能问题求解中的应用 22
1.5 本书主要内容及安排 23
参考文献 25
第2章 强化学习基础理论 41
2.1 马尔科夫决策过程概述 41
2.1.1 马尔科夫决策过程 41
2.1.2 策略和值函数 42
2.2 基于模型的动态规划方法 44
2.2.1 线性规划 45
2.2.2 策略迭代 45
2.2.3 值迭代 46
2.2.4 广义策略迭代 47
2.3 模型未知的强化学习 48
2.3.1 强化学习基础 48
2.3.2 蒙特卡罗法 49
2.3.3 时间差分TD法 54
2.3.4 Q学习与SARSA学习 56
2.3.5 Dyna学习框架 57
2.3.6 直接策略方法 59
2.3.7 Actor-Critic学习 60
2.4 近似强化学习 61
2.4.1 带值函数逼近的TD学习 61
2.4.2 近似值迭代 63
2.4.3 近似策略迭代 65
2.4.4 最小二乘策略迭代 66
2.5 本章小结 68
参考文献 68
第3章 基于支持向量机的强化学习 71
3.1 支持向量机原理 71
3.1.1 机器学习 72
3.1.2 核学习 73
3.1.3 SVM的思想 74
3.1.4 SVM的重要概念 74
3.2 基于半参数支持向量机的强化学习 75
3.2.1 基于半参数回归模型的Q学习结构 76
3.2.2 半参数回归模型的学习 78
3.2.3 仿真研究 79
3.3 基于概率型支持向量机的强化学习 82
3.3.1 基于概率型支持向量机分类机的Q学习 82
3.3.2 概率型支持向量分类机 83
3.3.3 仿真研究 85
3.4 本章小结 88
参考文献 88
第4章 基于状态-动作图测地高斯基的策略迭代强化学习 90
4.1 强化学习中的基函数选择 90
4.2 基于状态-动作图测地高斯基的策略迭代 91
4.2.1 MDP的状态-动作空间图 92
4.2.2 状态-动作图上测地高斯核 93
4.2.3 基于状态-动作图测地高斯基的动作值函数逼近 94
4.3 算法步骤 95
4.4 仿真研究 96
4.5 本章小结 104
参考文献 104
第5章 基于抽象状态的贝叶斯强化学习电梯群组调度 106
5.1 电梯群组调度强化学习模型 107
5.2 基于抽象状态的贝叶斯强化学习电梯群组调度 108
5.2.1 状态空间抽象 109
5.2.2 强化学习系统的回报函数 110
5.2.3 贝叶斯网推断 110
5.2.4 状态-动作值函数的神经网络逼近 111
5.2.5 动作选择策略 112
5.3 仿真研究 112
5.4 本章小结 115
参考文献 115
第6章 基于增量最小二乘时间差分的Actor-Critic学习 117
6.1 策略梯度理论 118
6.2 基于常规梯度的增量式Actor-Critic学习 120
6.3 基于iLSTD(λ)的Actor-Critic学习 121
6.4 仿真研究 123
6.5 本章小结 126
参考文献 126
第7章 融合经验数据的Actor-Critic强化学习 128
7.1 增量式Actor-Critic学习算法的数据有效性改进 128
7.1.1 基于RLSTD(λ)或iLSTD(λ)的增量式Actor-Critic学习 130
7.1.2 算法步骤 132
7.1.3 仿真研究 133
7.2 基于自适应重要采样的Actor-Critic学习 140
7.2.1 基于最小二乘时间差分的Actor-Critic强化学习 141
7.2.2 基于重要采样的估计 143
7.2.3 基于自适应重要采样的估计 145
7.2.4 算法步骤 147
7.2.5 仿真研究 147
7.3 本章小结 150
参考文献 151
第8章 基于资格迹的折扣回报型增量自然Actor-Critic学习 153
8.1 自然梯度 154
8.2 自然策略梯度的估计方法 155
8.2.1 基于Fisher信息矩阵的自然策略梯度 155
8.2.2 基于兼容函数逼近器的自然策略梯度 156
8.2.3 自然策略梯度的仿真 157
8.2.4 自然策略梯度的特性 158
8.3 基于资格迹的折扣回报型增量自然Actor-Critic学习 158
8.4 仿真研究 161
8.5 本章小结 164
参考文献 165
第9章 基于参数探索的EM策略搜索 166
9.1 策略搜索强化学习方法分析 166
9.2 期望最大化策略搜索强化学习 167
9.3 基于参数探索的EM策略搜索学习 169
9.4 算法步骤 171
9.5 仿真研究 172
9.5.1 小球平衡问题 172
9.5.2 倒立摆平衡问题 175
9.6 本章小结 177
参考文献 178
第10章 基于谱图理论的强化学习基础 180
10.1 谱图理论与谱图分割 180
10.1.1 谱图理论与谱方法 180
10.1.2 谱图分割和谱聚类 181
10.2 基于谱图理论的流形和距离度量学习 183
10.2.1 流形学习概述 183
10.2.2 基于流形学习的度量学习 183
10.3 基于拉普拉斯特征映射法的强化学习 185
10.3.1 拉普拉斯特征映射法基础 185
10.3.2 基于拉普拉斯特征映射的强化学习 186
10.4 基于拉普拉斯特征映射的强化学习分析 190
10.5 本章小结 191
参考文献 191
第11章 基于拉普拉斯特征映射的启发式策略选择 194
11.1 探索和利用平衡问题概述 194
11.2 启发式策略选择原理 195
11.3 基于拉普拉斯特征映射的启发式策略选择 196
11.3.1 基本思想 196
11.3.2 基于拉普拉斯特征映射的启发式Q学习 197
11.4 算法步骤、计算复杂度和适用范围 202
11.4.1 算法主要步骤 202
11.4.2 计算复杂度 202
11.4.3 适用范围 203
11.5 仿真研究 203
11.5.1 5房间格子世界 203
11.5.2 对称4房间格子世界 205
11.6 本章小结 206
参考文献 206
第12章 基于拉普拉斯特征映射的Dyna规划 208
12.1 强化学习在移动机器人自主导航中的应用研究概述 208
12.2 强化学习在井下救援机器人导航中的应用研究 209
12.3 基于拉普拉斯特征映射的Dyna_Q算法 210
12.3.1 Dyna_Q的基本思想 210
12.3.2 基于谱图理论的优先级机制 211
12.3.3 算法步骤 212
12.3.4 计算复杂度分析和适用范围 212
12.4 仿真结果及分析 212
12.4.1 5房间格子地图 213
12.4.2 对称4房间格子地图 213
12.4.3 9房间格子地图 214
12.5 本章小结 215
参考文献 215
第13章 基于谱方法的强化学习迁移研究 217
13.1 基于谱图理论的强化学习迁移 217
13.1.1 强化学习迁移概述 217
13.1.2 基于谱图理论的强化学习迁移分析 219
13.2 基于谱图理论的Option自动生成研究 220
13.2.1 Option原理 220
13.2.2 基于谱图分割的Option自动生成算法概述 221
13.2.3 虚拟值函数法 222
13.3 基于谱图理论的强化学习混合迁移方法 226
13.3.1 基函数的线性插值 226
13.3.2 迁移基函数的逼近能力 227
13.3.3 基函数与子任务策略的混合迁移 230
13.4 算法步骤和适用范围 231
13.4.1 算法步骤 231
13.4.2 适用范围 232
13.5 仿真实验与分析 232
13.5.1 地图不变迁移 233
13.5.2 地图比例放大迁移 233
13.5.3 实验结果统计分析 235
13.6 本章小结 237
参考文献 237
附录 240