《马尔可夫决策过程引论》PDF下载

  • 购买积分:11 如何计算积分?
  • 作  者:胡奇英,刘建庸著
  • 出 版 社:西安:西安电子科技大学出版社
  • 出版年份:2000
  • ISBN:7560608302
  • 页数:273 页
图书介绍:

第1章 引论 1

1.1 离散时间马尔可夫决策过程模型 1

前言 1

1.2 报酬过程与准则函数 2

1.3 历史 6

参考文献 7

第2章 有限阶段 10

2.1 有限阶段最优方程 10

2.2 应用 13

2.2.1 序贯投资问题 13

2.2.2 秘书选择问题 15

2.3 模函数与单调策略 16

文献注释 22

参考文献 22

3.1 折扣最优方程 23

3.1.1 无界报酬条件及目标函数的存在性 23

第3间 折扣准则 23

3.1.2 最优方程 26

3.2 (ε)最优策略的性质和结构 30

3.2.1 最优策略的性质和结构 30

3.2.3 ε最优策略的性质和结构 33

3.3 逐次逼近法与策略迭代法 35

3.3.1 逐次逼近法 35

3.3.2 策略迭代法 40

3.3.3 策略迭代--逐次逼近法 41

3.4 线性规划法 45

3.5 状态逼近法 47

3.6 Blackwell最优准则 52

3.6.1 罗朗级数展开 52

3.6.2 求Blackwell最优策略的策略迭代法 54

3.7 非可数决策集 56

文献注释 58

参考文献 59

4.1 模型缩减 62

第4章 总报酬准则 62

4.2 报酬函数和准则函数的有限性 63

4.2.1 报酬函数的有限性 64

4.2.2 最优值函数的有限性及最优方程 66

4.3 充分条件 69

4.4 最优方程与(ε)最优策略 72

4.5 逐次逼近法 76

参考文献 77

文献注释 77

第5章 平均准则 78

5.1 引言和反例 78

5.2 平均准则最优方程 82

5.2.1 平均准则最优方程与(ε)最优策略 82

5.2.2 常返性条件 86

5.2.3 转换为折扣准则 88

5.3 多链马尔可夫决策过程 89

5.3.1 最优方程系 89

5.3.2 典型三重组 90

5.4 策略迭代法 97

5.5 逐次逼近法 101

5.5.1 基于最优方程的逐次逼近法 101

5.5.2 基于最优方程系的逐次逼近法 104

5.6 线性规划法 108

5.7 最优不等式 112

文献注释 120

参考文献 122

6.1.1 模型 125

第6章 半马尔可夫决策过程 125

6.1 半马尔可夫决策过程模型 125

6.1.2 正则性条件 126

6.1.3 准则函数 129

6.2 转换为离散时间马尔可夫决策过程 132

6.2.1 期望折扣总报酬准则 132

6.2.2 平均准则 134

6.2.3 马尔可夫型半马尔可夫决策过程 138

文献注释 139

参考文献 140

第七章 连续时间马尔可夫决策过程 141

7.1 连续时间马尔可夫决策过程模型 141

7.2 期望折扣总报酬准则 144

7.3 平均准则 149

7.4 非平稳期望总报酬准则 151

文献注释 158

参考文献 158

第8章 一般化马尔可夫决策过程 160

8.1 状态部分可观察的马尔可夫决策过程 160

8.1.1 模型 160

8.1.2 折扣准则 161

8.1.3 有限阶段 166

8.2 约束马尔可夫决策过程 169

8.2.1 单约束 169

8.2.2 多约束 173

8.2.3 哈密尔顿圈 177

8.3 多目标马尔可夫决策过程 180

8.3.1 折扣准则 181

8.3.2 折扣与平均的加权准则 186

8.4 摄动马尔可夫决策过程 190

8.4.1 摄动的非平稳平均准则马尔可夫决策过程 191

8.4.2 摄动的连续时间折扣准则马尔可夫决策过程 197

文献注释 199

参考文献 200

9.1.1 模型 206

第9章 随机环境马尔可夫决策过程 206

9.1 半马氏环境连续时间马尔可夫决策过程 206

9.1.2 最优方程 210

9.1.3 弱收敛逼近 216

9.1.4 马尔可夫环境和位相型环境 218

9.2 半马尔可夫环境半马尔可夫决策过程 223

9.2.1 模型 223

9.2.2 最优方程 226

9.2.3 马尔可夫环境 229

9.3 半马尔可夫环境混合马尔可夫决策过程 230

9.3.1 模型 230

9.3.2 最优方程 232

9.3.3 马尔可夫环境 237

文献注释 238

参考文献 239

第10章 在排队/通信系统中的应用 240

10.1 排队系统的到达控制 240

10.1.1 静态到达控制 241

10.1.2 M/M/c系统的动态到达控制 242

10.1.3 一般动态到达控制 243

10.2 排队系统服务控制 246

10.3 排队网络控制 250

10.3.1 到达控制 250

10.3.2 服务控制 250

10.3.3 路径控制 252

10.4 通信网络控制 253

参考文献 255

文献注释 255

第11章 在其他方面的应用 257

11.1 生产/存贮系统最优控制 257

11.2 系统最优更换/维修 259

11.2.1 模型 259

11.2.2 折扣准则 262

11.2.3 平均目标 264

11.2.4 无冲击 265

11.3 质量控制 266

11.4 目标的最优搜索 268

11.4.1 固定目标的最优搜索 268

11.4.2 活动目标的最优搜索 269

11.5 柔性制造系统最优路径控制 270

11.5.1 一类流水线的最优动态负荷分配 270

11.5.2 动态路径调度 271

文献注释 272

参考文献 272