第一章 动态规划算法 1
1.1 基本问题 1
1.2 动态规划算法 8
1.3 确定性系统和最短路径问题 16
1.4 最短路径在统筹分析、编码理论和正向搜索中的应用 19
1.5 时间滞后、相关扰动及预报 29
1.6 注记 33
第二章 特殊领域中的应用 41
2.1 线性系统和二次代价函数:确定性等价原理 41
2.2 库存控制 48
2.3 动态证券分析 53
2.4 最优停止问题 57
2.5 调度和次序互换理论 63
2.6 注记 66
第三章 不完全状态信息问题 72
3.1 简化成完全状态信息情况 72
3.2 线性系统和二次代价;估计和控制的分离 74
3.3 线性系统的最小方差控制 78
3.4 充分统计和有限状态马尔科夫链:一个示教问题 90
3.5 假设检验:序列概率比检验 97
3.6 注记 100
第四章 次优与自适应控制 106
4.1 确定性等价控制 106
4.2 开环反馈控制器 108
4.3 有限前瞻策略:在柔性制造和计算机下棋中的应用 110
4.4 自适应控制:自校正调节器 119
4.5 注记 126
第五章 无限时域问题:理论部分 132
5.1 基本结果 132
5.2 计算方法:逐次逼近,策略迭代,自适应集结,线性规划 138
5.3 收缩映射的作用 152
5.4 每阶段无界代价和无折扣问题 153
5.5 非平稳与周期性问题 165
5.6 注记 169
第六章 无限时域问题:应用部分 180
6.1 线性系统与二次代价 180
6.2 库存控制 181
6.3 最优停止 183
6.4 首次通过问题[原注] 188
6.5 随机调度和多臂投赌机问题 194
6.6 最优博奕策略 201
6.7 连续时间马尔科夫链及其一致化:在排队系统中的应用[原注] 207
6.8 注记 218
第七章 每阶段平均代价的极小化 232
7.1 最优性条件 232
7.2 逐次逼近、误差界限和线性规划解 238
7.3 策略迭代 246
7.4 无限状态空间:具有二次代价泛函的线性系统 249
7.5 注记 251
附录: 存在性结果和证明 259
附录A: 数学综述 259
A.1 集合 259
A.2 欧氏空间 260
A.3 矩阵 260
A.4 Ro 中的拓扑概念 261
A.5 凸集和函数 262
附录B:关于优化理论 264
附录C:关于概率论 266
附录D:关于有限状态马尔科夫链 269
参考文献 272