目录 1
绪论 1
第1篇 马尔可夫决策过程的基本模型 11
1 马尔可夫决策过程(MDP)的现状 13
§1.1 马尔可夫决策过程的背景 13
§1.2 离散时间非平稳MDP 14
§1.3 离散时间平稳情形MDP 16
§1.4 连续时间MDP 22
§1.5 连续时间SMDP 24
2 策略类的等价性 27
§2.1 基本模型及定义 27
§2.2 预备引理及其证明 29
§2.3 策略类∏与策略类∏m的等价性 31
§2.4 本章结论的注记 37
第2篇 离散时间可数状态MDP 39
§3.1 引言 41
3 平稳MDP的折扣目标 41
§3.2 平稳策略优势 43
§3.3 存在一个平稳策略是最优的 45
§3.4 策略迭代法 48
§3.5 逐次逼近法 52
§3.6 策略迭代——逐次逼近法 55
§3.7 线性规划法 57
§3.8 本章结论的注记 60
§4.2 平稳最优策略的存在性 61
4 平稳MDP的平均目标 61
§4.1 引言 61
§4.3 策略迭代算法 65
§4.4 线性规划算法 70
§4.5 特殊情形 71
§4.6 数值例子 73
§4.7 本章结论的注记 76
§5.1 基本模型及定义 78
5 非平稳MDP的期望总报酬目标 78
§5.2 模型的时齐化 79
§5.3 最优马氏策略的存在性 82
§5.4 最优策略的结构 88
§5.5 本章结论的注记 94
6 受约束的非平稳MDP期望总报酬目标 95
§6.1 基本模型及定义 95
§6.2 目标函数对策略的连续性 96
§6.3 约束最优策略的刻画 101
§6.4 进一步的结果 105
§6.5 本章结论的注记 108
7 非平稳MDP的平均目标 109
§7.1 基本模型及定义 109
§7.2 最优方程的可解性 111
§7.3 W-ε-最优马氏策略的存在性 113
§7.4 逐次逼近算法 122
§7.5 最优策略的结构 126
§7.6 ε-最优策略的Bellman最优性原理 135
§7.7 平均方差目标 144
§7.8 一致最优(G,B)-生成策略的存在性 158
§7.9 本章结论的注记 168
第3篇 离散时间Borel状态空间非平稳MDP 171
8 期望总报酬目标 173
§8.1 引言及模型 173
§8.2 模型的转化 174
§8.3 最大报酬函数的广义可测性 177
§8.4 最优马氏策略的存在性 186
§8.5 本章结论的注记 190
9 受约束的期望总报酬准则 191
§9.1 基本模型和假设 191
§9.2 随机策略类及最优策略类的紧性 193
§9.3 约束最优策略的存在性 195
§9.4 本章结论的注记 199
10 平均报酬目标 200
§10.1 基本模型及定义 200
§10.2 最优方程解的存在性 201
§10.3 最优马氏策略的存在性 204
§10.4 值迭代算法 208
§10.5 最优策略的结构 211
§10.6 平均方差目标 216
§10.7 本章结论的注记 220
第4篇 连续时间可数状态MDP 221
11 折扣模型 223
§11.1 引言 223
§11.2 基本假设和定义 224
§11.3 折扣目标 229
§11.4 最优平稳策略的存在性与策略迭代算法 233
§11.5 化连续时间模型为离散时间模型 236
§11.6 进一步的结果 237
§11.7 最优策略的性质 243
§11.8 本章结论的注记 248
12 折扣模型与最优Q过程 249
§12.1 基本模型及定义 249
§12.2 Q(π)过程唯一时的折扣目标 250
§12.3 Q(π)-矩阵非保守情形 256
§12.4 Q(π)过程不唯一情形与最优Q过程 258
§12.5 最优决策过程 265
§12.6 本章结论的注记 272
13 平均模型 274
§13.1 引言 274
§13.2 附加假设同预备知识 274
§13.3 最优平稳策略的存在性 281
§13.4 ε-最优平稳策略 285
§13.5 策略迭代法及其收敛性 288
§13.6 进一步的结果与值迭代算法 292
§13.7 化连续时间模型为离散时间模型 297
§13.8 本章结论的注记 298
第5篇 连续时间可数状态SMDP 299
14 一个新的折扣目标 301
§14.1 引言及模型 301
§14.2 最优策略的存在性 303
§14.3 特殊情形 307
§14.4 本章结论的注记 310
15 平均目标 311
§15.1 基本模型及定义 311
§15.2 最优方程的确立 313
§15.3 平均期望目标ε-最优策略的存在性 316
§15.4 期望平均目标的强最优性 322
§15.5 本章结论的注记 327
第6篇 MDP的应用 329
§16.1 更换问题 331
16 MDP的应用例子 331
§16.2 更换存贮问题 335
§16.3 检查、维修与更换问题 340
§16.4 存贮问题 341
§16.5 质量控制问题 342
§16.6 可靠性问题 346
§16.7 随机旅行售货员问题 347
§16.8 存贮-生产系统问题 348
§16.9 公共汽车、街道小车或步行问题 349
§16.10 本章结论的注记 355
附录 基本知识 357
附录A 随机核 357
附录B 多值映射和可测选择理论 360
附录C 最小非负解理论 363
参考文献 365
符号索引 382
内容索引 385