第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 2
1.2.1 交通控制发展现状 2
1.2.2 自适应信号控制研究现状 4
1.2.3 典型的交通控制系统 5
1.3 研究目的 8
1.4 主要内容 8
第2章 强化学习理论简介 9
2.1 强化学习基本原理 9
2.2 Q学习算法基本理论 12
2.2.1 Q学习算法步骤 13
2.2.2 期望回报函数 13
2.2.3 状态—行为对的Q值函数 14
2.2.4 行为选择机制 15
2.2.5 Q值更新函数 17
2.3 强化学习的其他算法 17
2.3.1 动态规划算法 17
2.3.2 蒙特卡罗算法 17
2.3.3 瞬时差分学习算法 18
2.3.4 SARSA学习算法 19
2.3.5 Dyna学习算法 20
2.3.6 AHC学习算法 20
2.3.7 TD学习算法 21
第3章 集成Vissim-Excel_VBA-Matlab的仿真平台 26
3.1 Vissim简介 26
3.2 仿真平台的集成技术 30
3.2.1 Vissim与Excel_VBA接口技术 30
3.2.2 Excel_VBA与Matlab接口技术 34
3.2.3 Vissim、Excel_VBA与Matlab集成技术 38
3.3 集成Vissim-Excel_VBA-Matlab的仿真平台构建 39
3.3.1 仿真平台的构建方法 39
3.3.2 集成仿真平台的工作环境设置 43
3.3.3 集成仿真平台的实际应用 43
3.4 本章小结 44
第4章 绿灯时间优化的离线Q学习模型 45
4.1 概述 45
4.2 离线Q学习绿时优化模型的构建 46
4.3 数值实验环境 47
4.4 定周期等饱和度离线Q学习绿时优化模型 48
4.4.1 定周期等饱和度离线Q学习优化 48
4.4.2 定周期等饱和度优化结果在线应用 50
4.5 变周期等饱和度离线Q学习绿时优化模型 52
4.5.1 变周期等饱和度离线Q学习优化 52
4.5.2 变周期等饱和度优化结果在线应用 54
4.6 定周期延误最小离线Q学习绿时优化模型 56
4.6.1 定周期延误最小离线Q学习优化 56
4.6.2 定周期延误最小优化结果在线应用 57
4.7 变周期延误最小离线Q学习绿时优化模型 59
4.7.1 变周期延误最小离线Q学习优化 59
4.7.2 变周期延误最小优化结果在线应用 60
4.8 模型在线优化效果对比 61
4.9 本章小结 63
第5章 绿灯时间优化的在线Q学习模型 64
5.1 最小化运算的Q学习算法 64
5.2 状态、行为、奖赏的建模 64
5.3 行为选择函数 66
5.4 Q学习参数的调整与Q值初始化 66
5.5 在线学习流程 68
5.6 定周期两相位模型在线仿真结果及分析 70
5.6.1 定周期两相位模型性能测试 70
5.6.2 实际案例——猴子石大桥路况仿真分析 72
5.7 定周期、变周期四相位模型在线仿真结果及分析 80
5.7.1 Transyt信号配时方案 81
5.7.2 定周期四相位Q学习配时方案 82
5.7.3 变周期四相位Q学习配时方案 83
5.7.4 两种方案与Transyt的对比 85
5.7.5 到达流量变化情况下的变周期Q学习配时方案 86
5.8 本章小结 88
第6章 绿灯时间优化的离线TD学习模型 89
6.1 基本概念 89
6.2 绿灯时间等饱和度的TD学习模型 90
6.2.1 定周期奖赏不分级的TD学习模型 91
6.2.2 定周期奖赏分级的TD学习模型 93
6.2.3 变周期奖赏不分级的TD学习模型 94
6.2.4 变周期奖赏分级的TD学习模型 95
6.3 算例分析 97
6.3.1 交通状况设置 97
6.3.2 定周期奖赏不分级的TD学习模型 98
6.3.3 定周期奖赏分级的TD学习模型 100
6.3.4 变周期奖赏不分级的TD学习模型 102
6.3.5 变周期奖赏分级的TD学习模型 103
6.4 绿灯时间等饱和度的状态模糊TD学习模型 105
6.4.1 模糊理论简介 105
6.4.2 隶属度函数 106
6.4.3 状态模糊函数的选取 107
6.4.4 定周期奖赏不分级的状态模糊TD学习模型 108
6.4.5 定周期奖赏分级的状态模糊TD学习模型 111
6.4.6 变周期奖赏不分级的状态模糊TD学习模型 113
6.4.7 变周期奖赏分级的状态模糊TD学习模型 114
6.5 本章小结 115
第7章 绿灯时间优化的风险敏感强化学习模型 116
7.1 风险中立控制方法 116
7.2 风险敏感控制方法 116
7.2.1 最坏情况控制 116
7.2.2 基于指数效应函数的风险敏感控制 117
7.2.3 时间差分风险敏感强化学习理论简介 118
7.3 绿灯时间优化的风险避免学习模型 119
7.3.1 Q值更新函数的建立 119
7.3.2 状态、行为的选择 120
7.3.3 奖励函数的构造 120
7.3.4 行为选择机制 121
7.3.5 在线学习的步骤 121
7.3.6 实例分析 122
7.4 绿灯时间优化的风险寻求学习模型 127
7.4.1 风险寻求的概念 127
7.4.2 模型的提出及构建 127
7.4.3 实例分析 128
7.5 本章小结 132
第8章 相位差优化的离线Q学习模型 133
8.1 相位差及公共周期 133
8.1.1 相位差 133
8.1.2 公共周期 134
8.2 Maxband相位差优化方法 134
8.3 离线Q学习相位差优化模型的构建 136
8.4 实验环境 137
8.5 基于离线Q学习的相位差优化 138
8.5.1 相位差离线Q学习优化 138
8.5.2 相位差优化结果在线应用 139
8.6 本章小结 141
第9章 预测式交通管理预案研究 143
9.1 基于开源软件的OD反推算法研究 143
9.1.1 DTALite软件简介 143
9.1.2 DTALite中静态OD反推算法研究 151
9.1.3 OD反推模型求解 153
9.2 基于DYNAMEQ平台的交通管理预案研究 161
9.2.1 DYNAMEQ软件概述 161
9.2.2 技术路线 164
9.2.3 DYNAMEQ平台中模型的建立 165
9.2.4 交通管理预案及评估 183
9.2.5 本章小结 188
参考文献 190