单交叉口配时优化的函数逼近型强化学习模型

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第10-20页
1.1 研究背景	第10-11页
1.2 国内外研究现状	第11-17页
1.2.1 交通信号控制发展研究现状	第11-14页
1.2.2 单交叉口自适应控制研究现状	第14-17页
1.3 研究的目的及意义	第17-18页
1.4 论文研究技术路线	第18-20页
第二章强化学习原理与函数逼近方法	第20-34页
2.1 强化学习原理	第20-27页
2.1.1 强化学习模型	第20-21页
2.1.2 强化学习基本要素	第21-23页
2.1.3 马尔科夫决策过程	第23-25页
2.1.4 行为选择方法	第25-27页
2.2 强化学习算法	第27-29页
2.2.1 时间差分TD算法	第27-28页
2.2.2 Q学习算法	第28-29页
2.3 基于神经网络逼近的强化学习方法	第29-34页
2.3.1 神经网络逼近方法简介	第29-30页
2.3.2 基于神经网络逼近的强化学习算法	第30-34页
第三章基于状态离散的单交叉口配时优化在线Q学习模型	第34-52页
3.1 仿真平台构建	第34-39页
3.1.1 Vissim仿真路口构建与参数设置	第35-36页
3.1.2 Vissim-Excel VBA-Matlab数据通信	第36-38页
3.1.3 集成仿真平台的运行	第38-39页
3.2 基于状态离散的在线Q学习配时模型	第39-52页
3.2.1 在线Q学习配时模型的要素	第39-44页
3.2.2 在线Q学习仿真流程	第44-47页
3.2.3 在线Q学习仿真结果	第47-52页
第四章基于神经网络逼近的单交叉口配时优化在线Q学习模型	第52-62页
4.1 基于神经网络逼近的Q学习模型要素	第52-53页
4.1.1 状态、行为与奖赏	第52页
4.1.2 行为选择策略	第52-53页
4.2 基于神经网络逼近的Q学习算法	第53-59页
4.2.1 算法结构	第53-54页
4.2.2 算法流程	第54-58页
4.2.3 算法仿真结果	第58-59页
4.3 与状态离散的Q学习算法对比	第59-62页
结论与展望	第62-64页
参考文献	第64-70页
致谢	第70-72页
附录A 在线Q学习代码	第72-84页
A.1 Vissim仿真控制代码	第72页
A.2 在线Q学习VBA主程序代码	第72-81页
A.3 Q学习Matlab代码	第81-84页
附录B 基于神经网络逼近的Q学习算法代码	第84-94页
B.1 基于神经网络逼近的Q学习算法VBA代码	第84-91页
B.2 基于神经网络逼近的Q学习算法Matlab代码	第91-94页