《随机学习与优化 基于灵敏度的方法 第2版》PDF下载

  • 购买积分:14 如何计算积分?
  • 作  者:(美)曹希仁著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2011
  • ISBN:9787302242925
  • 页数:433 页
图书介绍:在随机学习与优化的研究中,摄动分析、马尔可夫决策过程、强化学习、辨识和自适应控制长期以来被认为是几个分离的领域,曹希仁教授在本书中用统一的框架把它们巧妙地结合在一起。

1引言 1

1.1学习和优化概述 1

1.1.1问题描述 1

1.1.2最优策略 4

1.1.3学习和优化的基本局限 9

1.1.4学习和优化的基于灵敏度的观点 12

1.2不同学科中问题的描述 14

1.2.1摄动分析(PA) 15

1.2.2马尔可夫决策过程 19

1.2.3强化学习 22

1.2.4辨识和自适应控制 24

1.2.5基于事件的优化和性能势集结 26

1.3学习和优化学科关系图 29

1.4术语和符号 30

习题 31

第1部分 学习与优化的四门学科 37

2摄动分析 37

2.1马尔可夫链的摄动分析 37

2.1.1构造摄动样本路径 39

2.1.2摄动实现因子和性能势 42

2.1.3性能导数公式 47

2.1.4折扣报酬准则的梯度 49

2.1.5高阶导数和麦克劳林级数 54

2.2马尔可夫过程的性能灵敏度 61

2.3半马尔可夫过程的性能灵敏度 66

2.3.1半马尔可夫过程的基础知识 66

2.3.2性能灵敏度公式 70

2.4排队系统的摄动分析 75

2.4.1构造摄动样本路径 78

2.4.2摄动实现 85

2.4.3性能导数 90

2.4.4相关理论问题的评注 92

2.5其他方法 96

习题 100

3利用摄动分析的学习与优化 107

3.1性能势 107

3.1.1数值方法 108

3.1.2从样本路径学习性能势 110

3.1.3耦合 115

3.2性能梯度 118

3.2.1通过性能势估计 118

3.2.2直接学习 119

3.3利用摄动分析的优化 126

3.3.1梯度方法和随机逼近 126

3.3.2利用长样本路径的优化 128

3.3.3应用 129

习题 129

4马尔可夫决策过程 134

4.1遍历链 135

4.1.1策略迭代 136

4.1.2偏差最优性 140

4.1.3折扣报酬马尔可夫决策过程 147

4.2多链 148

4.2.1策略迭代 150

4.2.2偏差最优性 158

4.2.3折扣报酬马尔可夫决策过程 166

4.3 n阶偏差优化问题 168

4.3.1 n阶偏差差分公式 168

4.3.2最优性方程 171

4.3.3策略迭代 177

4.3.4 n阶偏差最优策略空间 180

习题 182

5基于样本路径的策略迭代 187

5.1研究动机 188

5.2收敛性 190

5.2.1性能势估计值的收敛性 191

5.2.2再生期数目固定的样本路径 192

5.2.3长度增加的样本路径 198

5.3“快”算法 206

5.3.1有限个周期后终止的算法 206

5.3.2采用随机逼近 209

习题 210

6强化学习 213

6.1随机逼近 214

6.1.1用迭代寻找函数的零点 214

6.1.2估计均值 219

6.2瞬时差分方法 220

6.2.1估计性能势的瞬时差分方法 220

6.2.2 Q-因子和其他扩展 228

6.2.3性能导数的瞬时差分方法 232

6.3瞬时差分方法和性能优化 235

6.3.1基于摄动分析的优化 235

6.3.2 Q-学习 238

6.3.3乐观的在线策略迭代 241

6.3.4值迭代 243

6.4学习和优化方法总结 244

习题 247

7从马尔可夫决策过程到自适应控制 252

7.1控制问题与马尔可夫决策过程 253

7.1.1建模为马尔可夫决策过程的控制系统 253

7.1.2两种方法的比较 255

7.2连续状态空间的马尔可夫决策过程 261

7.2.1连续空间的算子 261

7.2.2性能势和策略迭代 265

7.3线性控制系统和Riccati方程 268

7.3.1线性二次问题 268

7.3.2跳变线性二次问题 273

7.4在线优化和自适应控制 277

7.4.1离散化和估计 278

7.4.2讨论 282

习题 283

第2部分 基于事件的优化——一种新方法 289

8基于事件的马尔可夫系统的优化 289

8.1概述 290

8.1.1前面章节的总结 290

8.1.2基于事件的方法概述 291

8.2与马尔可夫链相关的事件 296

8.2.1事件与事件空间 298

8.2.2事件的概率 300

8.2.3通过示例说明基本思想 303

8.2.4三类事件的分类 306

8.3基于事件的优化 309

8.3.1问题描述 309

8.3.2性能差分公式 311

8.3.3性能导数公式 314

8.3.4优化 318

8.4学习:估计集结性能势 320

8.4.1集结性能势 320

8.4.2基于事件优化的集结性能势 323

8.5应用与示例 324

8.5.1制造系统 324

8.5.2服务速率控制 328

8.5.3一般应用 332

习题 333

9构造灵敏度公式 340

9.1研究动机 340

9.2同一个状态空间上的马尔可夫链 341

9.3基于事件的系统 347

9.3.1样本路径的构造 347

9.3.2参数化系统:一个例子 349

9.4不同状态空间上的马尔可夫链 351

9.4.1一个状态空间是另一个的子空间 351

9.4.2更一般的例子 358

9.5小结 361

习题 362

第3部分 附录:数学基础 367

A概率论与马尔可夫过程 367

A.1概率论 367

A.2马尔可夫过程 372

习题 377

B随机矩阵 379

B.1规范形 379

B.2特征值 380

B.3极限矩阵 382

习题 386

C排队论 388

C.1单服务台队列 388

C.2排队网络 392

C.3一些有用的技巧 400

习题 402

参考文献 405

索引 421

译者后记 426

专家及读者评论 427