第一章 概述 1
1.1 引言 1
1.2 离散时间 MDP 的基本组成部分 6
1.3 策略(Policy)类 7
1.4 准则 9
1.5 历史与应用简况 14
第二章 有限阶段模型 18
2.1 最优策略的存在性 18
2.2 向后归纳法 19
2.3 例 20
3.1 预备知识 31
第三章 折扣模型 31
3.2 平稳策略优势 36
3.3 策略迭代法 43
3.4 逐次逼近算法 56
3.5 关于算法的说明 63
第四章 平均模型 64
4.1 引言 64
4.2 Vn-1(?∞)的渐近式 67
4.3 策略求值方程 73
4.4 最优平稳策略的存在性及算法 75
4.5 例 82
参考文献 85