强化学习及其在城市交通信号控制中的应用研究

摘要	第1-4页
ABSTRACT	第4-7页
第一章绪论	第7-13页
·研究背景和意义	第7-8页
·国内外研究状况	第8-10页
·国外研究状况	第8-9页
·国内研究状况	第9-10页
·论文的主要研究内容	第10-11页
·论文的组织结构	第11-13页
第二章强化学习理论	第13-25页
·强化学习发展历史、研究现状及应用	第13-14页
·强化学习发展历史	第13页
·强化学习研究现状和应用	第13-14页
·强化学习基本原理和模型	第14-16页
·强化学习的基本原理	第14-15页
·Agent 和强化学习的模型	第15-16页
·基于模型的强化学习	第16-20页
·马尔可夫决策过程	第16-18页
·基于模型的强化学习方法	第18-20页
·模型无关的强化学习	第20-22页
·瞬时差分算法	第20页
·Q 学习算法	第20-21页
·Sarsa 算法	第21-22页
·多 Agent 系统中的分布式强化学习	第22-23页
·强化学习及其应用中存在的问题	第23-24页
·本章小结	第24-25页
第三章基于 MBRL 的交通信号控制方法	第25-39页
·交通建模及交通信号控制术语	第25-27页
·改进的 TC1 方法—TCSG 交通信号控制方法	第27-37页
·基于车辆状态描述方法的交通信号控制问题建模	第27-29页
·TCSG 交通信号控制方法	第29-33页
·仿真实验及分析	第33-37页
·本章小结	第37-39页
第四章基于 Q 学习理论的交通信号控制方法	第39-61页
·DMFQ 交通信号控制方法	第39-48页
·DMFQ 交通信号控制方法介绍	第39-42页
·DMFQ 方法的多 Agent 共享 Q 值协作及学习过程	第42-43页
·仿真实验及分析	第43-48页
·QSGWE 交通信号控制方法	第48-53页
·QSGWE 交通信号控制方法介绍	第48-50页
·QSGWE 方法的学习过程及多 Agent 的共享协作	第50页
·仿真实验及分析	第50-53页
·DMFQV 交通信号控制方法	第53-60页
·DMFQV 交通信号控制方法介绍	第54-55页
·DMFQV 方法的学习过程及多 Agent 共享 V 值的协作	第55-56页
·仿真实验及分析	第56-60页
·本章小结	第60-61页
第五章基于 Sarsa 学习理论的交通信号控制方法	第61-73页
·DMFS 交通信号控制方法	第61-66页
·DMFS 交通信号控制方法介绍	第61-62页
·DMFS 方法的学习过程及多 Agent 共享 Q 值的协作	第62页
·仿真实验及分析	第62-66页
·SSGWE 交通信号控制方法	第66-71页
·SSGWE 交通信号控制方法介绍	第66-67页
·SSGWE 方法的学习过程及多 Agent 的共享协作	第67-68页
·仿真实验及分析	第68-71页
·本章小结	第71-73页
第六章总结与展望	第73-77页
·总结	第73-74页
·展望	第74-77页
致谢	第77-79页
参考文献	第79-85页