当前位置:首页 > 工业技术
多智能体机器学习  强化学习方法
多智能体机器学习  强化学习方法

多智能体机器学习 强化学习方法PDF电子书下载

工业技术

  • 电子书积分:9 积分如何计算积分?
  • 作 者:H.M.Schwartz
  • 出 版 社:机械工业出版社
  • 出版年份:2017
  • ISBN:9787111569602
  • 页数:185 页
图书介绍:本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LR-I滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。最后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。
《多智能体机器学习 强化学习方法》目录

第1章 监督式学习概述 1

1.1 LS算法 1

1.2 RLS算法 3

1.3 LMS算法 4

1.4随机逼近法 7

参考文献 8

第2章 单智能体强化学习 9

2.1简介 9

2.2 n臂赌博机问题 10

2.3学习结构 12

2.4值函数 13

2.5最优值函数 14

2.5.1网格示例 14

2.6 MDP 17

2.7学习值函数 18

2.8策略迭代 19

2.9时间差分学习 21

2.10状态-行为函数的时间差分学习 23

2.11 Q学习 24

2.12资格迹 25

参考文献 28

第3章 双人矩阵博弈学习 29

3.1矩阵博弈 29

3.2双人矩阵博弈中的纳什均衡 31

3.3双人零和矩阵博弈中的线性规划 32

3.4学习算法 37

3.5梯度上升算法 37

3.6 WoLF-IGA算法 39

3.7 PHC算法 40

3.8 WoLF-PHC算法 42

3.9矩阵博弈中的分散式学习 45

3.10学习自动机 45

3.11线性回报-无为算法 46

3.12线性回报-惩罚算法 46

3.13滞后锚算法 46

3.14 L R-I滞后锚算法 47

3.14.1仿真 52

参考文献 54

第4章 多人随机博弈学习 56

4.1简介 56

4.2多人随机博弈 57

4.3极大极小Q学习算法 60

4.3.1 2×2网格博弈 62

4.4纳什Q学习算法 66

4.4.1学习过程 73

4.5单纯形算法 73

4.6 Lemke-Howson算法 76

4.7纳什Q学习算法实现 82

4.8朋友或敌人Q学习算法 85

4.9无限梯度上升算法 86

4.10 PHC算法 88

4.11 WoLF-PHC算法 89

4.12网格世界中的疆土防御问题 90

4.12.1仿真和结果 92

4.13 L R-I滞后锚算法在随机博弈中的扩展 98

4.14 EMA Q学习算法 101

4.15EMA Q学习与其他方法的仿真与结果比较 103

4.15.1矩阵博弈 103

4.15.2随机博弈 105

参考文献 110

第5章 微分博弈 112

5.1简介 112

5.2模糊系统简述 113

5.2.1模糊集和模糊规则 113

5.2.2模糊推理机 115

5.2.3模糊化与去模糊化 117

5.2.4模糊系统及其示例 117

5.3模糊Q学习 121

5.4 FACL 124

5.5疯狂司机微分博弈 126

5.6模糊控制器结构 129

5.7 Q(λ)学习模糊推理系统 131

5.8疯狂司机博弈的仿真结果 133

5.9双车追捕者-逃跑者博弈中的学习算法 137

5.10双车博弈仿真 139

5.11疆土防御微分博弈 143

5.12疆土防御微分博弈中的形成回报 145

5.13仿真结果 146

5.13.1一个防御者对一个入侵者 146

5.13.2两个防御者对一个入侵者 152

参考文献 157

第6章 群智能与性格特征的进化 159

6.1简介 159

6.2群智能的进化 159

6.3环境表征 160

6.4群机器人的性格特征 161

6.5性格特征的进化 162

6.6仿真结构框架 163

6.7零和博弈示例 164

6.7.1收敛性 165

6.7.2仿真结果 169

6.8后续仿真实现 170

6.9机器人走出房间 171

6.10机器人跟踪目标 174

6.11小结 184

参考文献 184

返回顶部