马尔可夫决策过程引论PDF电子书下载
- 电子书积分:11 积分如何计算积分?
- 作 者:胡奇英,刘建庸著
- 出 版 社:西安:西安电子科技大学出版社
- 出版年份:2000
- ISBN:7560608302
- 页数:273 页
第1章 引论 1
1.1 离散时间马尔可夫决策过程模型 1
前言 1
1.2 报酬过程与准则函数 2
1.3 历史 6
参考文献 7
第2章 有限阶段 10
2.1 有限阶段最优方程 10
2.2 应用 13
2.2.1 序贯投资问题 13
2.2.2 秘书选择问题 15
2.3 模函数与单调策略 16
文献注释 22
参考文献 22
3.1 折扣最优方程 23
3.1.1 无界报酬条件及目标函数的存在性 23
第3间 折扣准则 23
3.1.2 最优方程 26
3.2 (ε)最优策略的性质和结构 30
3.2.1 最优策略的性质和结构 30
3.2.3 ε最优策略的性质和结构 33
3.3 逐次逼近法与策略迭代法 35
3.3.1 逐次逼近法 35
3.3.2 策略迭代法 40
3.3.3 策略迭代--逐次逼近法 41
3.4 线性规划法 45
3.5 状态逼近法 47
3.6 Blackwell最优准则 52
3.6.1 罗朗级数展开 52
3.6.2 求Blackwell最优策略的策略迭代法 54
3.7 非可数决策集 56
文献注释 58
参考文献 59
4.1 模型缩减 62
第4章 总报酬准则 62
4.2 报酬函数和准则函数的有限性 63
4.2.1 报酬函数的有限性 64
4.2.2 最优值函数的有限性及最优方程 66
4.3 充分条件 69
4.4 最优方程与(ε)最优策略 72
4.5 逐次逼近法 76
参考文献 77
文献注释 77
第5章 平均准则 78
5.1 引言和反例 78
5.2 平均准则最优方程 82
5.2.1 平均准则最优方程与(ε)最优策略 82
5.2.2 常返性条件 86
5.2.3 转换为折扣准则 88
5.3 多链马尔可夫决策过程 89
5.3.1 最优方程系 89
5.3.2 典型三重组 90
5.4 策略迭代法 97
5.5 逐次逼近法 101
5.5.1 基于最优方程的逐次逼近法 101
5.5.2 基于最优方程系的逐次逼近法 104
5.6 线性规划法 108
5.7 最优不等式 112
文献注释 120
参考文献 122
6.1.1 模型 125
第6章 半马尔可夫决策过程 125
6.1 半马尔可夫决策过程模型 125
6.1.2 正则性条件 126
6.1.3 准则函数 129
6.2 转换为离散时间马尔可夫决策过程 132
6.2.1 期望折扣总报酬准则 132
6.2.2 平均准则 134
6.2.3 马尔可夫型半马尔可夫决策过程 138
文献注释 139
参考文献 140
第七章 连续时间马尔可夫决策过程 141
7.1 连续时间马尔可夫决策过程模型 141
7.2 期望折扣总报酬准则 144
7.3 平均准则 149
7.4 非平稳期望总报酬准则 151
文献注释 158
参考文献 158
第8章 一般化马尔可夫决策过程 160
8.1 状态部分可观察的马尔可夫决策过程 160
8.1.1 模型 160
8.1.2 折扣准则 161
8.1.3 有限阶段 166
8.2 约束马尔可夫决策过程 169
8.2.1 单约束 169
8.2.2 多约束 173
8.2.3 哈密尔顿圈 177
8.3 多目标马尔可夫决策过程 180
8.3.1 折扣准则 181
8.3.2 折扣与平均的加权准则 186
8.4 摄动马尔可夫决策过程 190
8.4.1 摄动的非平稳平均准则马尔可夫决策过程 191
8.4.2 摄动的连续时间折扣准则马尔可夫决策过程 197
文献注释 199
参考文献 200
9.1.1 模型 206
第9章 随机环境马尔可夫决策过程 206
9.1 半马氏环境连续时间马尔可夫决策过程 206
9.1.2 最优方程 210
9.1.3 弱收敛逼近 216
9.1.4 马尔可夫环境和位相型环境 218
9.2 半马尔可夫环境半马尔可夫决策过程 223
9.2.1 模型 223
9.2.2 最优方程 226
9.2.3 马尔可夫环境 229
9.3 半马尔可夫环境混合马尔可夫决策过程 230
9.3.1 模型 230
9.3.2 最优方程 232
9.3.3 马尔可夫环境 237
文献注释 238
参考文献 239
第10章 在排队/通信系统中的应用 240
10.1 排队系统的到达控制 240
10.1.1 静态到达控制 241
10.1.2 M/M/c系统的动态到达控制 242
10.1.3 一般动态到达控制 243
10.2 排队系统服务控制 246
10.3 排队网络控制 250
10.3.1 到达控制 250
10.3.2 服务控制 250
10.3.3 路径控制 252
10.4 通信网络控制 253
参考文献 255
文献注释 255
第11章 在其他方面的应用 257
11.1 生产/存贮系统最优控制 257
11.2 系统最优更换/维修 259
11.2.1 模型 259
11.2.2 折扣准则 262
11.2.3 平均目标 264
11.2.4 无冲击 265
11.3 质量控制 266
11.4 目标的最优搜索 268
11.4.1 固定目标的最优搜索 268
11.4.2 活动目标的最优搜索 269
11.5 柔性制造系统最优路径控制 270
11.5.1 一类流水线的最优动态负荷分配 270
11.5.2 动态路径调度 271
文献注释 272
参考文献 272
- 《催化剂制备过程技术》韩勇责任编辑;(中国)张继光 2019
- 《绿色过程工程与清洁生产技术 张懿院士论文集精选 上》《绿色过程工程与清洁生产技术》编写组编 2019
- 《化工传递过程导论 第2版》阎建民,刘辉 2020
- 《长三角雾霾突发事件风险评估、应急决策及联动防治机制研究》叶春明著 2019
- 《钢铁行业污染特征与全过程控制技术研究》周长波等 2019
- 《成本管理会计与企业决策分析》郭媛责任编辑;(中国)李跃升 2019
- 《钢铁烧结烟气多污染物过程控制原理与新技术》甘敏,范晓慧著 2019
- 《冷战时代的中国战略决策》牛军著 2019
- 《食品过程工程》赵黎明主编 2020
- 《精神分析引论》(奥)西格蒙德·弗洛伊德著;黄珊译 2019
- 《古代巴比伦》(英)莱昂纳德·W.金著 2019
- 《BBC人体如何工作》(英)爱丽丝.罗伯茨 2019
- 《一个数学家的辩白》(英)哈代(G.H.Hardy)著;李文林,戴宗铎,高嵘译 2019
- 《莎士比亚全集 2》(英)莎士比亚著,朱生豪等译 2002
- 《莎士比亚戏剧精选集》(英)威廉·莎士比亚(William Shakespeare)著 2020
- 《莎士比亚 叙事诗·抒情诗·戏剧》(英)威廉·莎士比亚著 2019
- 《亚历山大继业者战争 上 将领与战役》(英)鲍勃·本尼特,(英)麦克·罗伯茨著;张晓媛译 2019
- 《孩子们的音乐之旅 1 宝宝睡觉 幼儿版》包菊英主编 2016
- 《超级参与者》王金强责编;赵磊译者;(澳)杰里米·海曼斯,(英)亨利·蒂姆斯 2020
- 《物联网导论》张翼英主编 2020