摘要 | 第1-6页 |
ABSTRACT | 第6-10页 |
第一章 绪论 | 第10-17页 |
·选题背景 | 第10-11页 |
·强化学习的研究现状 | 第11-14页 |
·强化学习的理论研究现状 | 第11-13页 |
·强化学习在交通信号控制中的应用 | 第13-14页 |
·Q 学习算法的特点及存在的问题 | 第14-15页 |
·研究的目的与意义 | 第15页 |
·论文的主要研究内容 | 第15-17页 |
第二章 强化学习的理论基础 | 第17-27页 |
·智能体理论 | 第17页 |
·Agent 的概念 | 第17页 |
·Agent 的特征 | 第17页 |
·强化学习的基本原理 | 第17-19页 |
·Q 学习算法的基本理论 | 第19-23页 |
·Markov 决策过程模型 | 第19页 |
·期望回报函数 | 第19-20页 |
·状态-动作对的Q 值函数 | 第20-21页 |
·动作选择机制 | 第21-23页 |
·Q 值函数的更新 | 第23页 |
·强化学习的其他主要算法 | 第23-26页 |
·蒙特卡罗算法 | 第23-24页 |
·瞬时差分学习算法 | 第24-25页 |
·SARSA 学习算法 | 第25页 |
·R 学习算法 | 第25-26页 |
·Dyna 学习算法 | 第26页 |
·本章小结 | 第26-27页 |
第三章 基于 Q 学习的单路口信号控制方法研究 | 第27-38页 |
·交叉口交通信号控制的相关概念 | 第27-30页 |
·Q 学习算法进行单路口信号控制关键问题分析 | 第30-33页 |
·单路口状态空间的选择 | 第30-32页 |
·状态转化后所取得的奖励函数的确定 | 第32页 |
·在状态确定后后续动作的确定 | 第32页 |
·如何确定最佳Q 值是否已经获得 | 第32-33页 |
·学习参数的选择 | 第33页 |
·基于Q 学习的单路口交通信号控制体系 | 第33-35页 |
·Q 学习交通信号控制算法 | 第35-37页 |
·信号控制动作集 | 第35-36页 |
·算法步骤 | 第36-37页 |
·算法设计 | 第37页 |
·本章小结 | 第37-38页 |
第四章 算例分析 | 第38-54页 |
·算例介绍 | 第38-39页 |
·定时信号配时 | 第39-40页 |
·基于固定周期的Q 学习信号优化配时 | 第40-47页 |
·第1 时间段 | 第41-44页 |
·第2 时间段 | 第44-45页 |
·第3 时间段 | 第45页 |
·第4 时间段 | 第45-46页 |
·第5 时间段 | 第46-47页 |
·基于可变周期的Q 学习信号优化配时 | 第47-51页 |
·第1 时间段 | 第47-48页 |
·第2 时间段 | 第48-49页 |
·第3 时间段 | 第49-50页 |
·第4 时间段 | 第50-51页 |
·第5 时间段 | 第51页 |
·Q 学习控制法与WEBSTER 法延误对比 | 第51-53页 |
·本章小结 | 第53-54页 |
第五章 结论与展望 | 第54-55页 |
·本论文主要结论 | 第54页 |
·有待进一步研究的问题 | 第54-55页 |
参考文献 | 第55-58页 |
致谢 | 第58-59页 |
附录A(攻读学位期间发表学术论文与科研项目) | 第59-60页 |
附录B 单路口 Q 学习交通信号控制算法 MATLAB 程序 | 第60-66页 |
B.1 Q 学习主函数 MATLAB 程序语言 | 第60-64页 |
B.2 固定周期 Q 学习测试脚本 | 第64-65页 |
B.3 可变周期 Q 学习测试脚本 | 第65-66页 |