首页--交通运输论文--公路运输论文--交通工程与公路运输技术管理论文--交通工程与交通管理论文--线路交通安全设施论文

面向城市自适应交通信号控制的强化学习方法研究

摘要第5-7页
ABSTRACT第7-9页
第一章 绪论第14-39页
    1.1 研究背景及意义第14-15页
    1.2 城市自适应交通信号控制基础理论第15-21页
        1.2.1 自适应控制定义及研究现状第15-16页
        1.2.2 交通信号控制基本概念第16-18页
        1.2.3 城市交通信号控制的范围第18页
        1.2.4 城市交通信号控制方法第18-20页
        1.2.5 城市交通信号控制方式和结构第20-21页
    1.3 强化学习的发展概况第21-27页
        1.3.1 机器学习第21-22页
        1.3.2 强化学习的定义第22-23页
        1.3.3 强化学习的发展过程第23-27页
    1.4 面向自适应交通信号控制的强化学习研究现状第27-35页
        1.4.1 国内外研究现状第27-34页
        1.4.2 现有研究不足第34-35页
    1.5 课题来源、组织结构、研究内容及创新之处第35-39页
        1.5.1 课题来源第35页
        1.5.2 组织结构第35页
        1.5.3 研究内容第35-37页
        1.5.4 创新之处第37-39页
第二章 交叉口交通信号控制 Agent 体系结构第39-47页
    2.1 交叉口交通信号控制 agent 理论模型第39-40页
    2.2 agent 基本体系结构第40-42页
    2.3 交叉口交通信号控制 agent 体系结构模型第42-46页
    2.4 本章小结第46-47页
第三章 Agent 强化学习基础理论第47-58页
    3.1 强化学习基本结构及原理第47-48页
    3.2 强化学习关键要素第48-50页
    3.3 MDP 和 POMDP 基本模型第50-51页
    3.4 强化学习的基本算法第51-55页
        3.4.1 算法基础第51-52页
        3.4.2 TD(Temporal Difference,瞬时差分)法第52-53页
        3.4.3 Q 强化学习第53-55页
        3.4.4 Sarsa(state,action,reward,state,action)算法第55页
    3.5 POMDP 强化学习第55-56页
    3.6 多 agent 强化学习第56-57页
    3.7 本章小结第57-58页
第四章 面向自适应交通信号控制的标准强化学习算法第58-76页
    4.1 面向自适应交通信号控制的独立标准强化学习算法第58-65页
        4.1.1 独立标准强化学习算法设计第58-63页
        4.1.2 仿真实验分析第63-65页
    4.2 引入协调机制的标准强化学习算法设计第65-75页
        4.2.1 基于间接协调机制的标准强化学习第66-67页
        4.2.2 基于直接协调机制的标准强化学习第67-70页
        4.2.3 仿真实验分析第70-75页
    4.3 本章小结第75-76页
第五章 面向自适应交通信号控制的分布式 Nash Q-学习算法第76-97页
    5.1 基于 Markov 对策论的 TSCA 间的交互数学模型第77-81页
    5.2 面向自适应交通信号控制的分布式 Nash Q-学习算法第81-90页
        5.2.1 单 agent 独立 Q-学习算法第81页
        5.2.2 MAS 分布式 Nash Q-学习算法第81-88页
        5.2.3 方法收敛性的理论分析第88-90页
    5.3 实例分析第90-96页
        5.3.1 收敛性分析第90-92页
        5.3.2 有效性分析第92-96页
    5.4 本章小结第96-97页
第六章 面向自适应交通信号控制的多遇历史强化学习算法第97-119页
    6.1 交叉口交通信号控制 agent 多遇交互数学模型第98-105页
        6.1.1 基于对策论的多遇交互数学模型第98-99页
        6.1.2 面向相邻交叉口交通信号控制 agent 交互的信号博弈分析第99-105页
    6.2 交叉口交通信号控制 agent 间的交互循环学习过程第105-107页
    6.3 交叉口交通信号控制 agent 间多遇历史学习算法第107-111页
        6.3.1 算法设计第107-109页
        6.3.2 算法收敛性理论分析第109-111页
    6.4 实例分析第111-117页
        6.4.1 参数对方法性能影响分析第111-116页
        6.4.2 方法有效性分析第116-117页
    6.5 本章小结第117-119页
第七章 面向自适应交通信号控制的策略梯度上升强化学习算法第119-146页
    7.1 交叉口自适应交通信号控制 POMDP 环境模型第120-121页
    7.2 面向自适应交通信号控制的策略梯度强化学习算法设计第121-133页
        7.2.1 参数定义和假设第121-122页
        7.2.2 目标函数第122-123页
        7.2.3 传统的策略梯度学习算法第123-126页
        7.2.4 带有值函数逼近器的策略梯度算法第126-127页
        7.2.5 改进的策略梯度学习算法算法第127-132页
        7.2.6 可分解的策略梯度的学习第132-133页
    7.3 基于策略梯度学习算法的自适应交通信号控制第133-136页
        7.3.1 学习系统的结构第133-135页
        7.3.2 性能评价标准第135-136页
    7.4 实例分析第136-145页
        7.4.1 基准策略第136-137页
        7.4.2 仿真网络第137-140页
        7.4.3 有效性分析第140-142页
        7.4.4 收敛性分析第142-145页
    7.5 本章小结第145-146页
结论第146-149页
参考文献第149-162页
攻读博士学位期间取得的研究成果第162-164页
致谢第164-165页
附件第165页

论文共165页,点击 下载论文
上一篇:基于遥感与GIS的中国水土流失定量评价
下一篇:寻找属人的生命意义--生存论视角下的信仰问题研究