随机学习与优化 基于灵敏度的方法 第2版PDF电子书下载
- 电子书积分:14 积分如何计算积分?
- 作 者:(美)曹希仁著
- 出 版 社:北京:清华大学出版社
- 出版年份:2011
- ISBN:9787302242925
- 页数:433 页
1引言 1
1.1学习和优化概述 1
1.1.1问题描述 1
1.1.2最优策略 4
1.1.3学习和优化的基本局限 9
1.1.4学习和优化的基于灵敏度的观点 12
1.2不同学科中问题的描述 14
1.2.1摄动分析(PA) 15
1.2.2马尔可夫决策过程 19
1.2.3强化学习 22
1.2.4辨识和自适应控制 24
1.2.5基于事件的优化和性能势集结 26
1.3学习和优化学科关系图 29
1.4术语和符号 30
习题 31
第1部分 学习与优化的四门学科 37
2摄动分析 37
2.1马尔可夫链的摄动分析 37
2.1.1构造摄动样本路径 39
2.1.2摄动实现因子和性能势 42
2.1.3性能导数公式 47
2.1.4折扣报酬准则的梯度 49
2.1.5高阶导数和麦克劳林级数 54
2.2马尔可夫过程的性能灵敏度 61
2.3半马尔可夫过程的性能灵敏度 66
2.3.1半马尔可夫过程的基础知识 66
2.3.2性能灵敏度公式 70
2.4排队系统的摄动分析 75
2.4.1构造摄动样本路径 78
2.4.2摄动实现 85
2.4.3性能导数 90
2.4.4相关理论问题的评注 92
2.5其他方法 96
习题 100
3利用摄动分析的学习与优化 107
3.1性能势 107
3.1.1数值方法 108
3.1.2从样本路径学习性能势 110
3.1.3耦合 115
3.2性能梯度 118
3.2.1通过性能势估计 118
3.2.2直接学习 119
3.3利用摄动分析的优化 126
3.3.1梯度方法和随机逼近 126
3.3.2利用长样本路径的优化 128
3.3.3应用 129
习题 129
4马尔可夫决策过程 134
4.1遍历链 135
4.1.1策略迭代 136
4.1.2偏差最优性 140
4.1.3折扣报酬马尔可夫决策过程 147
4.2多链 148
4.2.1策略迭代 150
4.2.2偏差最优性 158
4.2.3折扣报酬马尔可夫决策过程 166
4.3 n阶偏差优化问题 168
4.3.1 n阶偏差差分公式 168
4.3.2最优性方程 171
4.3.3策略迭代 177
4.3.4 n阶偏差最优策略空间 180
习题 182
5基于样本路径的策略迭代 187
5.1研究动机 188
5.2收敛性 190
5.2.1性能势估计值的收敛性 191
5.2.2再生期数目固定的样本路径 192
5.2.3长度增加的样本路径 198
5.3“快”算法 206
5.3.1有限个周期后终止的算法 206
5.3.2采用随机逼近 209
习题 210
6强化学习 213
6.1随机逼近 214
6.1.1用迭代寻找函数的零点 214
6.1.2估计均值 219
6.2瞬时差分方法 220
6.2.1估计性能势的瞬时差分方法 220
6.2.2 Q-因子和其他扩展 228
6.2.3性能导数的瞬时差分方法 232
6.3瞬时差分方法和性能优化 235
6.3.1基于摄动分析的优化 235
6.3.2 Q-学习 238
6.3.3乐观的在线策略迭代 241
6.3.4值迭代 243
6.4学习和优化方法总结 244
习题 247
7从马尔可夫决策过程到自适应控制 252
7.1控制问题与马尔可夫决策过程 253
7.1.1建模为马尔可夫决策过程的控制系统 253
7.1.2两种方法的比较 255
7.2连续状态空间的马尔可夫决策过程 261
7.2.1连续空间的算子 261
7.2.2性能势和策略迭代 265
7.3线性控制系统和Riccati方程 268
7.3.1线性二次问题 268
7.3.2跳变线性二次问题 273
7.4在线优化和自适应控制 277
7.4.1离散化和估计 278
7.4.2讨论 282
习题 283
第2部分 基于事件的优化——一种新方法 289
8基于事件的马尔可夫系统的优化 289
8.1概述 290
8.1.1前面章节的总结 290
8.1.2基于事件的方法概述 291
8.2与马尔可夫链相关的事件 296
8.2.1事件与事件空间 298
8.2.2事件的概率 300
8.2.3通过示例说明基本思想 303
8.2.4三类事件的分类 306
8.3基于事件的优化 309
8.3.1问题描述 309
8.3.2性能差分公式 311
8.3.3性能导数公式 314
8.3.4优化 318
8.4学习:估计集结性能势 320
8.4.1集结性能势 320
8.4.2基于事件优化的集结性能势 323
8.5应用与示例 324
8.5.1制造系统 324
8.5.2服务速率控制 328
8.5.3一般应用 332
习题 333
9构造灵敏度公式 340
9.1研究动机 340
9.2同一个状态空间上的马尔可夫链 341
9.3基于事件的系统 347
9.3.1样本路径的构造 347
9.3.2参数化系统:一个例子 349
9.4不同状态空间上的马尔可夫链 351
9.4.1一个状态空间是另一个的子空间 351
9.4.2更一般的例子 358
9.5小结 361
习题 362
第3部分 附录:数学基础 367
A概率论与马尔可夫过程 367
A.1概率论 367
A.2马尔可夫过程 372
习题 377
B随机矩阵 379
B.1规范形 379
B.2特征值 380
B.3极限矩阵 382
习题 386
C排队论 388
C.1单服务台队列 388
C.2排队网络 392
C.3一些有用的技巧 400
习题 402
参考文献 405
索引 421
译者后记 426
专家及读者评论 427
- 《中风偏瘫 脑萎缩 痴呆 最新治疗原则与方法》孙作东著 2004
- 《党员干部理论学习培训教材 理论热点问题党员干部学习辅导》(中国)胡磊 2018
- 《基于地质雷达信号波的土壤重金属污染探测方法研究》赵贵章 2019
- 《第一性原理方法及应用》李青坤著 2019
- 《数学物理方法与仿真 第3版》杨华军 2020
- 《Helmholtz方程的步进计算方法研究》李鹏著 2019
- 《深度学习与飞桨PaddlePaddle Fluid实战》于祥 2019
- 《土壤环境监测前沿分析测试方法研究》中国环境监测总站编著 2018
- 《全国普通高等中医药院校药学类专业“十三五”规划教材 第二轮规划教材 有机化学学习指导 第2版》赵骏 2018
- 《大数据环境下的信息管理方法技术与服务创新丛书 俄罗斯档案事业改革与发展研究》徐胡乡责编;肖秋会 2019
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《魔法销售台词》(美)埃尔默·惠勒著 2019
- 《看漫画学钢琴 技巧 3》高宁译;(日)川崎美雪 2019
- 《优势谈判 15周年经典版》(美)罗杰·道森 2018
- 《社会学与人类生活 社会问题解析 第11版》(美)James M. Henslin(詹姆斯·M. 汉斯林) 2019
- 《海明威书信集:1917-1961 下》(美)海明威(Ernest Hemingway)著;潘小松译 2019
- 《迁徙 默温自选诗集 上》(美)W.S.默温著;伽禾译 2020
- 《上帝的孤独者 下 托马斯·沃尔夫短篇小说集》(美)托马斯·沃尔夫著;刘积源译 2017
- 《巴黎永远没个完》(美)海明威著 2017
- 《剑桥国际英语写作教程 段落写作》(美)吉尔·辛格尔顿(Jill Shingleton)编著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《指向核心素养 北京十一学校名师教学设计 英语 七年级 上 配人教版》周志英总主编 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《北京生态环境保护》《北京环境保护丛书》编委会编著 2018
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《指向核心素养 北京十一学校名师教学设计 英语 九年级 上 配人教版》周志英总主编 2019