基于Sarsa学习算法的路径诱导算法研究

摘要	第7-8页
Abstract	第8-9页
第1章绪论	第13-19页
1.1 研究的背景和意义	第13-14页
1.2 国内外研究现状	第14-17页
1.3 研究的目标和内容	第17-18页
1.4 本文组织结构	第18-19页
第2章相关研究工作	第19-27页
2.1 引言	第19页
2.2 强化学习	第19-24页
2.2.1 基于强化学习的智能控制方法	第20-21页
2.2.2 强化学习的MDP模型	第21页
2.2.3 强化学习的最优策略	第21-22页
2.2.4 行为选择策略	第22-23页
2.2.5 TD算法	第23页
2.2.6 Sarsa学习算法	第23-24页
2.3 中心式路径诱导系统	第24-25页
2.4 本章小结	第25-27页
第3章基于Sarsa学习的路径诱导算法	第27-35页
3.1 引言	第27页
3.2 传统路径诱导算法	第27-29页
3.2.1 Dijkstra算法	第28页
3.2.2 A*算法	第28-29页
3.3 基于Sarsa学习路径诱导系统的强化学习模型	第29-31页
3.3.1 路径诱导算法的强化学习模型	第29页
3.3.2 Q值表	第29-30页
3.3.3 基于Q值的动态规划算法	第30-31页
3.4 基于Sarsa学习的路径诱导算法	第31-34页
3.5 本章小结	第34-35页
第4章基于全局和局部联合控制策略的动态路径诱导算法	第35-44页
4.1 引言	第35-36页
4.2 基于全局和局部联合控制策略的波兹曼概率分布	第36-38页
4.2.1 改进的波兹曼概率分布	第36-37页
4.2.2 全局控制策略	第37页
4.2.3 局部控制策略	第37-38页
4.3 基于全局和局部联合控制策略的动态路径诱导算法	第38-40页
4.4 全局和局部控制参数分析	第40-43页
4.5 本章小结	第43-44页
第5章基于多层网络的Sarsa学习路径诱导算法	第44-56页
5.1 引言	第44-45页
5.2 多层网	第45-48页
5.3 遗传算法聚类	第48-49页
5.3.1 遗传算法	第48-49页
5.3.2 基于遗传算法的聚类分析	第49页
5.4 基于遗传算法的多层网方法	第49-51页
5.5 基于多层网的路径诱导算法	第51-55页
5.6 本章小结	第55-56页
第6章仿真与实验结果分析	第56-69页
6.1 SUMO仿真器	第56-58页
6.1.1 SUMO仿真器介绍	第56-57页
6.1.2 SUMO仿真器界面	第57-58页
6.2 路径诱导算法算法仿真实验	第58-68页
6.2.1 仿真设置	第58-59页
6.2.2 基于Sarsa学习的路径诱导算法	第59-64页
6.2.3 基于全局和局部联合控制策略的动态路径诱导算法	第64-67页
6.2.4 基于多层网络的Sarsa学习路径诱导算法	第67-68页
6.3 本章小结	第68-69页
结论	第69-71页
参考文献	第71-77页
攻读硕士学位期间发表的论文和获得的科研成果	第77-78页
致谢	第78-79页