1 绪论 1
1.1 学习的定义 1
1.2 连接主义学习的分类 3
1.3 强化学习的基本概念 4
1.4 强化学习的发展历史及国内外研究状况 5
1.5 强化学习的应用领域 11
1.6 强化学习存在的问题及研究方向 14
2 强化学习系统的结构和实现方法 18
2.1 强化学习的定义及分类 18
2.2 强化学习Agent与环境的关系 21
2.3 强化学习的目标和奖励信号 24
2.4 强化学习系统的回报值 26
2.5 阶段性任务和持续性任务的统一描述 28
2.6 强化学习系统的结构模型 30
2.7 输入模块的实现方法 32
2.8 强化模块的实现方法 33
2.9 策略模块的实现方法 34
3 强化学习相关理论及学习算法 43
3.1 马尔可夫决策过程 43
3.2 动态规划方法 54
3.3 蒙特卡罗算法 61
4 瞬时差分法 69
4.1 瞬时差分法的基本原理 70
4.2 瞬时差分预测算法,与动态规划、蒙特卡罗方法的区别 72
4.3 瞬时差分法与监督学习方法 76
4.4 瞬时差分法的预测原理 78
4.5 无限折扣预测问题 81
4.6 采用神经网络实现TD法的结构信度分配 82
4.7 TD法的收敛性分析 84
4.8 TD学习算法的Worst-Case分析 90
4.9 截断瞬时差分法 100
5 自适应启发评价方法 104
5.1 自适应启发评价方法的基本原理 104
5.2 自适应启发评价学习系统的一般结构 116
5.3 离散动作AHC算法的神经网络实现 118
5.4 连续动作的强化学习问题 122
6 Q-学习 126
6.1 Q-学习的基本算法 126
6.2 Q-学习的收敛性及收敛速度 128
6.3 Q-学习系统的结构及神经网络实现 135
6.4 Sarsa-算法 139
6.5 快速在线Q(λ)算法 140
6.6 HQ-学习算法 148
7 资格迹 156
7.1 资格迹的基本原理 156
7.2 n步TD预测问题 159
7.3 TD(λ)的前向估计 161
7.4 TD(λ)的后向估计 164
7.5 前向估计和后向估计的等价性 167
7.6 Sarsa(λ)算法 169
7.7 Q(λ)算法 171
7.8 替换迹 174
8 提高强化学习速度的方法 176
8.1 利用经验回放技术提高强化学习速度 176
8.2 利用环境模型来提高强化学习速度 179
8.3 输入空间的量化方法 188
8.4 采用局部逼近神经网络实现强化学习系统 190
9 强化学习控制系统 192
9.1 学习控制问题 192
9.2 倒摆控制系统 200
9.3 强化学习在过程控制中的应用 205
9.4 强化学习和PI调节器在加热绕组控制中的应用 209
9.5 动态系统的强化学习控制器 217
10 强化学习在智能机器人中的应用 223
10.1 智能机器人局部路径规划问题 224
10.2 强化学习在水下机器人避碰行为学习的应用 227
10.3 强化学习在陆上移动机器人局部路径规划中的应用 236
11 强化学习的其它应用 252
11.1 TD-Gammon 252
11.2 塞缪尔的Checkers Player程序 257
11.3 空中飞人 260
11.4 电梯调度 263
11.5 动态信道分配 267
参考文献 271