第1章 监督式学习概述 1
1.1 LS算法 1
1.2 RLS算法 3
1.3 LMS算法 4
1.4随机逼近法 7
参考文献 8
第2章 单智能体强化学习 9
2.1简介 9
2.2 n臂赌博机问题 10
2.3学习结构 12
2.4值函数 13
2.5最优值函数 14
2.5.1网格示例 14
2.6 MDP 17
2.7学习值函数 18
2.8策略迭代 19
2.9时间差分学习 21
2.10状态-行为函数的时间差分学习 23
2.11 Q学习 24
2.12资格迹 25
参考文献 28
第3章 双人矩阵博弈学习 29
3.1矩阵博弈 29
3.2双人矩阵博弈中的纳什均衡 31
3.3双人零和矩阵博弈中的线性规划 32
3.4学习算法 37
3.5梯度上升算法 37
3.6 WoLF-IGA算法 39
3.7 PHC算法 40
3.8 WoLF-PHC算法 42
3.9矩阵博弈中的分散式学习 45
3.10学习自动机 45
3.11线性回报-无为算法 46
3.12线性回报-惩罚算法 46
3.13滞后锚算法 46
3.14 L R-I滞后锚算法 47
3.14.1仿真 52
参考文献 54
第4章 多人随机博弈学习 56
4.1简介 56
4.2多人随机博弈 57
4.3极大极小Q学习算法 60
4.3.1 2×2网格博弈 62
4.4纳什Q学习算法 66
4.4.1学习过程 73
4.5单纯形算法 73
4.6 Lemke-Howson算法 76
4.7纳什Q学习算法实现 82
4.8朋友或敌人Q学习算法 85
4.9无限梯度上升算法 86
4.10 PHC算法 88
4.11 WoLF-PHC算法 89
4.12网格世界中的疆土防御问题 90
4.12.1仿真和结果 92
4.13 L R-I滞后锚算法在随机博弈中的扩展 98
4.14 EMA Q学习算法 101
4.15EMA Q学习与其他方法的仿真与结果比较 103
4.15.1矩阵博弈 103
4.15.2随机博弈 105
参考文献 110
第5章 微分博弈 112
5.1简介 112
5.2模糊系统简述 113
5.2.1模糊集和模糊规则 113
5.2.2模糊推理机 115
5.2.3模糊化与去模糊化 117
5.2.4模糊系统及其示例 117
5.3模糊Q学习 121
5.4 FACL 124
5.5疯狂司机微分博弈 126
5.6模糊控制器结构 129
5.7 Q(λ)学习模糊推理系统 131
5.8疯狂司机博弈的仿真结果 133
5.9双车追捕者-逃跑者博弈中的学习算法 137
5.10双车博弈仿真 139
5.11疆土防御微分博弈 143
5.12疆土防御微分博弈中的形成回报 145
5.13仿真结果 146
5.13.1一个防御者对一个入侵者 146
5.13.2两个防御者对一个入侵者 152
参考文献 157
第6章 群智能与性格特征的进化 159
6.1简介 159
6.2群智能的进化 159
6.3环境表征 160
6.4群机器人的性格特征 161
6.5性格特征的进化 162
6.6仿真结构框架 163
6.7零和博弈示例 164
6.7.1收敛性 165
6.7.2仿真结果 169
6.8后续仿真实现 170
6.9机器人走出房间 171
6.10机器人跟踪目标 174
6.11小结 184
参考文献 184