马尔可夫决策过程PDF电子书下载
- 电子书积分:13 积分如何计算积分?
- 作 者:侯振挺,郭先平著
- 出 版 社:长沙:湖南科学技术出版社
- 出版年份:1998
- ISBN:7535722725
- 页数:386 页
目录 1
绪论 1
第1篇 马尔可夫决策过程的基本模型 11
1 马尔可夫决策过程(MDP)的现状 13
§1.1 马尔可夫决策过程的背景 13
§1.2 离散时间非平稳MDP 14
§1.3 离散时间平稳情形MDP 16
§1.4 连续时间MDP 22
§1.5 连续时间SMDP 24
2 策略类的等价性 27
§2.1 基本模型及定义 27
§2.2 预备引理及其证明 29
§2.3 策略类∏与策略类∏m的等价性 31
§2.4 本章结论的注记 37
第2篇 离散时间可数状态MDP 39
§3.1 引言 41
3 平稳MDP的折扣目标 41
§3.2 平稳策略优势 43
§3.3 存在一个平稳策略是最优的 45
§3.4 策略迭代法 48
§3.5 逐次逼近法 52
§3.6 策略迭代——逐次逼近法 55
§3.7 线性规划法 57
§3.8 本章结论的注记 60
§4.2 平稳最优策略的存在性 61
4 平稳MDP的平均目标 61
§4.1 引言 61
§4.3 策略迭代算法 65
§4.4 线性规划算法 70
§4.5 特殊情形 71
§4.6 数值例子 73
§4.7 本章结论的注记 76
§5.1 基本模型及定义 78
5 非平稳MDP的期望总报酬目标 78
§5.2 模型的时齐化 79
§5.3 最优马氏策略的存在性 82
§5.4 最优策略的结构 88
§5.5 本章结论的注记 94
6 受约束的非平稳MDP期望总报酬目标 95
§6.1 基本模型及定义 95
§6.2 目标函数对策略的连续性 96
§6.3 约束最优策略的刻画 101
§6.4 进一步的结果 105
§6.5 本章结论的注记 108
7 非平稳MDP的平均目标 109
§7.1 基本模型及定义 109
§7.2 最优方程的可解性 111
§7.3 W-ε-最优马氏策略的存在性 113
§7.4 逐次逼近算法 122
§7.5 最优策略的结构 126
§7.6 ε-最优策略的Bellman最优性原理 135
§7.7 平均方差目标 144
§7.8 一致最优(G,B)-生成策略的存在性 158
§7.9 本章结论的注记 168
第3篇 离散时间Borel状态空间非平稳MDP 171
8 期望总报酬目标 173
§8.1 引言及模型 173
§8.2 模型的转化 174
§8.3 最大报酬函数的广义可测性 177
§8.4 最优马氏策略的存在性 186
§8.5 本章结论的注记 190
9 受约束的期望总报酬准则 191
§9.1 基本模型和假设 191
§9.2 随机策略类及最优策略类的紧性 193
§9.3 约束最优策略的存在性 195
§9.4 本章结论的注记 199
10 平均报酬目标 200
§10.1 基本模型及定义 200
§10.2 最优方程解的存在性 201
§10.3 最优马氏策略的存在性 204
§10.4 值迭代算法 208
§10.5 最优策略的结构 211
§10.6 平均方差目标 216
§10.7 本章结论的注记 220
第4篇 连续时间可数状态MDP 221
11 折扣模型 223
§11.1 引言 223
§11.2 基本假设和定义 224
§11.3 折扣目标 229
§11.4 最优平稳策略的存在性与策略迭代算法 233
§11.5 化连续时间模型为离散时间模型 236
§11.6 进一步的结果 237
§11.7 最优策略的性质 243
§11.8 本章结论的注记 248
12 折扣模型与最优Q过程 249
§12.1 基本模型及定义 249
§12.2 Q(π)过程唯一时的折扣目标 250
§12.3 Q(π)-矩阵非保守情形 256
§12.4 Q(π)过程不唯一情形与最优Q过程 258
§12.5 最优决策过程 265
§12.6 本章结论的注记 272
13 平均模型 274
§13.1 引言 274
§13.2 附加假设同预备知识 274
§13.3 最优平稳策略的存在性 281
§13.4 ε-最优平稳策略 285
§13.5 策略迭代法及其收敛性 288
§13.6 进一步的结果与值迭代算法 292
§13.7 化连续时间模型为离散时间模型 297
§13.8 本章结论的注记 298
第5篇 连续时间可数状态SMDP 299
14 一个新的折扣目标 301
§14.1 引言及模型 301
§14.2 最优策略的存在性 303
§14.3 特殊情形 307
§14.4 本章结论的注记 310
15 平均目标 311
§15.1 基本模型及定义 311
§15.2 最优方程的确立 313
§15.3 平均期望目标ε-最优策略的存在性 316
§15.4 期望平均目标的强最优性 322
§15.5 本章结论的注记 327
第6篇 MDP的应用 329
§16.1 更换问题 331
16 MDP的应用例子 331
§16.2 更换存贮问题 335
§16.3 检查、维修与更换问题 340
§16.4 存贮问题 341
§16.5 质量控制问题 342
§16.6 可靠性问题 346
§16.7 随机旅行售货员问题 347
§16.8 存贮-生产系统问题 348
§16.9 公共汽车、街道小车或步行问题 349
§16.10 本章结论的注记 355
附录 基本知识 357
附录A 随机核 357
附录B 多值映射和可测选择理论 360
附录C 最小非负解理论 363
参考文献 365
符号索引 382
内容索引 385
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《绿色过程工程与清洁生产技术 张懿院士论文集精选 上》《绿色过程工程与清洁生产技术》编写组编 2019
- 《化工传递过程导论 第2版》阎建民,刘辉 2020
- 《长三角雾霾突发事件风险评估、应急决策及联动防治机制研究》叶春明著 2019
- 《钢铁行业污染特征与全过程控制技术研究》周长波等 2019
- 《成本管理会计与企业决策分析》郭媛责任编辑;(中国)李跃升 2019
- 《钢铁烧结烟气多污染物过程控制原理与新技术》甘敏,范晓慧著 2019
- 《冷战时代的中国战略决策》牛军著 2019
- 《食品过程工程》赵黎明主编 2020
- 《普通高中语文教师课堂教学决策研究》高玲 2019
- 《单逨传奇》刘高奇,单百平著 2019
- 《云南少数民族传统舞蹈》葛树蓉,吴世平著 2018
- 《当代文化视域下的中国钢琴教育研究与实践》孙淑平著 2019
- 《峨眉丛谈》魏福平著 1986
- 《西方国家的新贸易保护主义与中国的应对措施研究》李雪平著 2019
- 《成长的声音》邬易平著 2019
- 《健康由自己把握》赵国平著 2018
- 《中国抗日战争史 第8卷 战后处置与战争遗留问题》步平著;步平,王建朗主编 2019
- 《世界名画中的大航海》梁二平著 2019
- 《生态文明建设的政治经济学》何爱平著 2019
- 《钒产业技术及应用》高峰,彭清静,华骏主编 2019
- 《现代水泥技术发展与应用论文集》天津水泥工业设计研究院有限公司编 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《Prometheus技术秘笈》百里燊 2019
- 《中央财政支持提升专业服务产业发展能力项目水利工程专业课程建设成果 设施农业工程技术》赵英编 2018
- 《药剂学实验操作技术》刘芳,高森主编 2019
- 《林下养蜂技术》罗文华,黄勇,刘佳霖主编 2017
- 《脱硝运行技术1000问》朱国宇编 2019
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《信息系统安全技术管理策略 信息安全经济学视角》赵柳榕著 2020