基于强化学习理论的交通控制模型研究PDF电子书下载
- 电子书积分:9 积分如何计算积分?
- 作 者:卢守峰著
- 出 版 社:长沙:中南大学出版社
- 出版年份:2015
- ISBN:9787548717300
- 页数:197 页
第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 2
1.2.1 交通控制发展现状 2
1.2.2 自适应信号控制研究现状 4
1.2.3 典型的交通控制系统 5
1.3 研究目的 8
1.4 主要内容 8
第2章 强化学习理论简介 9
2.1 强化学习基本原理 9
2.2 Q学习算法基本理论 12
2.2.1 Q学习算法步骤 13
2.2.2 期望回报函数 13
2.2.3 状态—行为对的Q值函数 14
2.2.4 行为选择机制 15
2.2.5 Q值更新函数 17
2.3 强化学习的其他算法 17
2.3.1 动态规划算法 17
2.3.2 蒙特卡罗算法 17
2.3.3 瞬时差分学习算法 18
2.3.4 SARSA学习算法 19
2.3.5 Dyna学习算法 20
2.3.6 AHC学习算法 20
2.3.7 TD学习算法 21
第3章 集成Vissim-Excel_VBA-Matlab的仿真平台 26
3.1 Vissim简介 26
3.2 仿真平台的集成技术 30
3.2.1 Vissim与Excel_VBA接口技术 30
3.2.2 Excel_VBA与Matlab接口技术 34
3.2.3 Vissim、Excel_VBA与Matlab集成技术 38
3.3 集成Vissim-Excel_VBA-Matlab的仿真平台构建 39
3.3.1 仿真平台的构建方法 39
3.3.2 集成仿真平台的工作环境设置 43
3.3.3 集成仿真平台的实际应用 43
3.4 本章小结 44
第4章 绿灯时间优化的离线Q学习模型 45
4.1 概述 45
4.2 离线Q学习绿时优化模型的构建 46
4.3 数值实验环境 47
4.4 定周期等饱和度离线Q学习绿时优化模型 48
4.4.1 定周期等饱和度离线Q学习优化 48
4.4.2 定周期等饱和度优化结果在线应用 50
4.5 变周期等饱和度离线Q学习绿时优化模型 52
4.5.1 变周期等饱和度离线Q学习优化 52
4.5.2 变周期等饱和度优化结果在线应用 54
4.6 定周期延误最小离线Q学习绿时优化模型 56
4.6.1 定周期延误最小离线Q学习优化 56
4.6.2 定周期延误最小优化结果在线应用 57
4.7 变周期延误最小离线Q学习绿时优化模型 59
4.7.1 变周期延误最小离线Q学习优化 59
4.7.2 变周期延误最小优化结果在线应用 60
4.8 模型在线优化效果对比 61
4.9 本章小结 63
第5章 绿灯时间优化的在线Q学习模型 64
5.1 最小化运算的Q学习算法 64
5.2 状态、行为、奖赏的建模 64
5.3 行为选择函数 66
5.4 Q学习参数的调整与Q值初始化 66
5.5 在线学习流程 68
5.6 定周期两相位模型在线仿真结果及分析 70
5.6.1 定周期两相位模型性能测试 70
5.6.2 实际案例——猴子石大桥路况仿真分析 72
5.7 定周期、变周期四相位模型在线仿真结果及分析 80
5.7.1 Transyt信号配时方案 81
5.7.2 定周期四相位Q学习配时方案 82
5.7.3 变周期四相位Q学习配时方案 83
5.7.4 两种方案与Transyt的对比 85
5.7.5 到达流量变化情况下的变周期Q学习配时方案 86
5.8 本章小结 88
第6章 绿灯时间优化的离线TD学习模型 89
6.1 基本概念 89
6.2 绿灯时间等饱和度的TD学习模型 90
6.2.1 定周期奖赏不分级的TD学习模型 91
6.2.2 定周期奖赏分级的TD学习模型 93
6.2.3 变周期奖赏不分级的TD学习模型 94
6.2.4 变周期奖赏分级的TD学习模型 95
6.3 算例分析 97
6.3.1 交通状况设置 97
6.3.2 定周期奖赏不分级的TD学习模型 98
6.3.3 定周期奖赏分级的TD学习模型 100
6.3.4 变周期奖赏不分级的TD学习模型 102
6.3.5 变周期奖赏分级的TD学习模型 103
6.4 绿灯时间等饱和度的状态模糊TD学习模型 105
6.4.1 模糊理论简介 105
6.4.2 隶属度函数 106
6.4.3 状态模糊函数的选取 107
6.4.4 定周期奖赏不分级的状态模糊TD学习模型 108
6.4.5 定周期奖赏分级的状态模糊TD学习模型 111
6.4.6 变周期奖赏不分级的状态模糊TD学习模型 113
6.4.7 变周期奖赏分级的状态模糊TD学习模型 114
6.5 本章小结 115
第7章 绿灯时间优化的风险敏感强化学习模型 116
7.1 风险中立控制方法 116
7.2 风险敏感控制方法 116
7.2.1 最坏情况控制 116
7.2.2 基于指数效应函数的风险敏感控制 117
7.2.3 时间差分风险敏感强化学习理论简介 118
7.3 绿灯时间优化的风险避免学习模型 119
7.3.1 Q值更新函数的建立 119
7.3.2 状态、行为的选择 120
7.3.3 奖励函数的构造 120
7.3.4 行为选择机制 121
7.3.5 在线学习的步骤 121
7.3.6 实例分析 122
7.4 绿灯时间优化的风险寻求学习模型 127
7.4.1 风险寻求的概念 127
7.4.2 模型的提出及构建 127
7.4.3 实例分析 128
7.5 本章小结 132
第8章 相位差优化的离线Q学习模型 133
8.1 相位差及公共周期 133
8.1.1 相位差 133
8.1.2 公共周期 134
8.2 Maxband相位差优化方法 134
8.3 离线Q学习相位差优化模型的构建 136
8.4 实验环境 137
8.5 基于离线Q学习的相位差优化 138
8.5.1 相位差离线Q学习优化 138
8.5.2 相位差优化结果在线应用 139
8.6 本章小结 141
第9章 预测式交通管理预案研究 143
9.1 基于开源软件的OD反推算法研究 143
9.1.1 DTALite软件简介 143
9.1.2 DTALite中静态OD反推算法研究 151
9.1.3 OD反推模型求解 153
9.2 基于DYNAMEQ平台的交通管理预案研究 161
9.2.1 DYNAMEQ软件概述 161
9.2.2 技术路线 164
9.2.3 DYNAMEQ平台中模型的建立 165
9.2.4 交通管理预案及评估 183
9.2.5 本章小结 188
参考文献 190
- 《SQL与关系数据库理论》(美)戴特(C.J.Date) 2019
- 《红色旅游的社会效应研究》吴春焕著 2019
- 《汉语词汇知识与习得研究》邢红兵主编 2019
- 《生物质甘油共气化制氢基础研究》赵丽霞 2019
- 《东北民歌文化研究及艺术探析》(中国)杨清波 2019
- 《联吡啶基钌光敏染料的结构与性能的理论研究》李明霞 2019
- 《异质性条件下技术创新最优市场结构研究 以中国高技术产业为例》千慧雄 2019
- 《情报学 服务国家安全与发展的现代情报理论》赵冰峰著 2018
- 《英汉翻译理论的多维阐释及应用剖析》常瑞娟著 2019
- 《《国语》和《战国策》词汇比较研究》陈长书著 2017
- 《深筋膜徒手松解疗法》盛德峰著 2019
- 《高校教师胜任力与工作绩效关系研究》曹志峰著 2019
- 《新媒体运营实战指南 社群运营 短视频运营 直播运营 微信运营》陈政峰著 2019
- 《如何成为学习高手》林泰峰著 2019
- 《中国学术思想研究辑刊 二十编 第9册 欧阳修《诗本义》研究新探 重估汉宋《诗经》学的转变与意义 上》陈战峰著 2015
- 《Python数据可视化 基于Bokeh的可视化绘图》屈希峰著 2020
- 《信息时代的哲学新问题=NEW PHILOSOPHICAL ISSUES IN THE INFORMATION AGE》肖峰著 2020
- 《中国学术思想研究辑刊 二十编 第7册 宋代《诗经》学与理学 上》陈战峰著 2015
- 《不器:我只是个生活家》何越峰著 2019
- 《数据挖掘基础算法理论与Weka应用技术》牟峰著 2019
- 《大学计算机实验指导及习题解答》曹成志,宋长龙 2019
- 《大学生心理健康与人生发展》王琳责任编辑;(中国)肖宇 2019
- 《大学英语四级考试全真试题 标准模拟 四级》汪开虎主编 2012
- 《大学英语教学的跨文化交际视角研究与创新发展》许丽云,刘枫,尚利明著 2020
- 《复旦大学新闻学院教授学术丛书 新闻实务随想录》刘海贵 2019
- 《大学英语综合教程 1》王佃春,骆敏主编 2015
- 《大学物理简明教程 下 第2版》施卫主编 2020
- 《大学化学实验》李爱勤,侯学会主编 2016
- 《中国十大出版家》王震,贺越明著 1991
- 《近代民营出版机构的英语函授教育 以“商务、中华、开明”函授学校为个案 1915年-1946年版》丁伟 2017