摘要 | 第5-7页 |
ABSTRACT | 第7-9页 |
第一章 绪论 | 第14-39页 |
1.1 研究背景及意义 | 第14-15页 |
1.2 城市自适应交通信号控制基础理论 | 第15-21页 |
1.2.1 自适应控制定义及研究现状 | 第15-16页 |
1.2.2 交通信号控制基本概念 | 第16-18页 |
1.2.3 城市交通信号控制的范围 | 第18页 |
1.2.4 城市交通信号控制方法 | 第18-20页 |
1.2.5 城市交通信号控制方式和结构 | 第20-21页 |
1.3 强化学习的发展概况 | 第21-27页 |
1.3.1 机器学习 | 第21-22页 |
1.3.2 强化学习的定义 | 第22-23页 |
1.3.3 强化学习的发展过程 | 第23-27页 |
1.4 面向自适应交通信号控制的强化学习研究现状 | 第27-35页 |
1.4.1 国内外研究现状 | 第27-34页 |
1.4.2 现有研究不足 | 第34-35页 |
1.5 课题来源、组织结构、研究内容及创新之处 | 第35-39页 |
1.5.1 课题来源 | 第35页 |
1.5.2 组织结构 | 第35页 |
1.5.3 研究内容 | 第35-37页 |
1.5.4 创新之处 | 第37-39页 |
第二章 交叉口交通信号控制 Agent 体系结构 | 第39-47页 |
2.1 交叉口交通信号控制 agent 理论模型 | 第39-40页 |
2.2 agent 基本体系结构 | 第40-42页 |
2.3 交叉口交通信号控制 agent 体系结构模型 | 第42-46页 |
2.4 本章小结 | 第46-47页 |
第三章 Agent 强化学习基础理论 | 第47-58页 |
3.1 强化学习基本结构及原理 | 第47-48页 |
3.2 强化学习关键要素 | 第48-50页 |
3.3 MDP 和 POMDP 基本模型 | 第50-51页 |
3.4 强化学习的基本算法 | 第51-55页 |
3.4.1 算法基础 | 第51-52页 |
3.4.2 TD(Temporal Difference,瞬时差分)法 | 第52-53页 |
3.4.3 Q 强化学习 | 第53-55页 |
3.4.4 Sarsa(state,action,reward,state,action)算法 | 第55页 |
3.5 POMDP 强化学习 | 第55-56页 |
3.6 多 agent 强化学习 | 第56-57页 |
3.7 本章小结 | 第57-58页 |
第四章 面向自适应交通信号控制的标准强化学习算法 | 第58-76页 |
4.1 面向自适应交通信号控制的独立标准强化学习算法 | 第58-65页 |
4.1.1 独立标准强化学习算法设计 | 第58-63页 |
4.1.2 仿真实验分析 | 第63-65页 |
4.2 引入协调机制的标准强化学习算法设计 | 第65-75页 |
4.2.1 基于间接协调机制的标准强化学习 | 第66-67页 |
4.2.2 基于直接协调机制的标准强化学习 | 第67-70页 |
4.2.3 仿真实验分析 | 第70-75页 |
4.3 本章小结 | 第75-76页 |
第五章 面向自适应交通信号控制的分布式 Nash Q-学习算法 | 第76-97页 |
5.1 基于 Markov 对策论的 TSCA 间的交互数学模型 | 第77-81页 |
5.2 面向自适应交通信号控制的分布式 Nash Q-学习算法 | 第81-90页 |
5.2.1 单 agent 独立 Q-学习算法 | 第81页 |
5.2.2 MAS 分布式 Nash Q-学习算法 | 第81-88页 |
5.2.3 方法收敛性的理论分析 | 第88-90页 |
5.3 实例分析 | 第90-96页 |
5.3.1 收敛性分析 | 第90-92页 |
5.3.2 有效性分析 | 第92-96页 |
5.4 本章小结 | 第96-97页 |
第六章 面向自适应交通信号控制的多遇历史强化学习算法 | 第97-119页 |
6.1 交叉口交通信号控制 agent 多遇交互数学模型 | 第98-105页 |
6.1.1 基于对策论的多遇交互数学模型 | 第98-99页 |
6.1.2 面向相邻交叉口交通信号控制 agent 交互的信号博弈分析 | 第99-105页 |
6.2 交叉口交通信号控制 agent 间的交互循环学习过程 | 第105-107页 |
6.3 交叉口交通信号控制 agent 间多遇历史学习算法 | 第107-111页 |
6.3.1 算法设计 | 第107-109页 |
6.3.2 算法收敛性理论分析 | 第109-111页 |
6.4 实例分析 | 第111-117页 |
6.4.1 参数对方法性能影响分析 | 第111-116页 |
6.4.2 方法有效性分析 | 第116-117页 |
6.5 本章小结 | 第117-119页 |
第七章 面向自适应交通信号控制的策略梯度上升强化学习算法 | 第119-146页 |
7.1 交叉口自适应交通信号控制 POMDP 环境模型 | 第120-121页 |
7.2 面向自适应交通信号控制的策略梯度强化学习算法设计 | 第121-133页 |
7.2.1 参数定义和假设 | 第121-122页 |
7.2.2 目标函数 | 第122-123页 |
7.2.3 传统的策略梯度学习算法 | 第123-126页 |
7.2.4 带有值函数逼近器的策略梯度算法 | 第126-127页 |
7.2.5 改进的策略梯度学习算法算法 | 第127-132页 |
7.2.6 可分解的策略梯度的学习 | 第132-133页 |
7.3 基于策略梯度学习算法的自适应交通信号控制 | 第133-136页 |
7.3.1 学习系统的结构 | 第133-135页 |
7.3.2 性能评价标准 | 第135-136页 |
7.4 实例分析 | 第136-145页 |
7.4.1 基准策略 | 第136-137页 |
7.4.2 仿真网络 | 第137-140页 |
7.4.3 有效性分析 | 第140-142页 |
7.4.4 收敛性分析 | 第142-145页 |
7.5 本章小结 | 第145-146页 |
结论 | 第146-149页 |
参考文献 | 第149-162页 |
攻读博士学位期间取得的研究成果 | 第162-164页 |
致谢 | 第164-165页 |
附件 | 第165页 |