摘要 | 第1-5页 |
Abstract | 第5-10页 |
第1章 前言 | 第10-26页 |
·研究意义 | 第10-17页 |
·为什么研究强化学习 | 第10-11页 |
·强化学习的研究历史 | 第11-12页 |
·强化学习当前面临的主要问题 | 第12-13页 |
·现有的解决途径和和存在的问题 | 第13-16页 |
·本文的观点 | 第16-17页 |
·研究内容 | 第17-25页 |
·获取问题的状态空间知识 | 第18-20页 |
·建立引导贝叶斯网 | 第20-22页 |
·基于引导贝叶斯网的强化学习(SBN-RL) | 第22-24页 |
·SBN-RL方法在多路口交通灯最优控制上的应用 | 第24-25页 |
·全文组织 | 第25-26页 |
第2章 获取问题的状态空间知识 | 第26-51页 |
·强化学习 | 第26-31页 |
·强化学习简介 | 第26-30页 |
·强化学习存在的问题 | 第30-31页 |
·获取状态空间的知识:链串(State-Clusters) | 第31-40页 |
·链串 | 第31-33页 |
·生成链串的算法 | 第33-40页 |
·链串的两个应用 | 第40-51页 |
·基于链串的Q学习SCQ-Learning | 第40-44页 |
·共享链串的多Agent协作强化学习SCMARL | 第44-51页 |
第3章 建立引导贝叶斯网 | 第51-79页 |
·关键状态 | 第51-59页 |
·关键状态 | 第51-56页 |
·发现关键状态的算法 | 第56-59页 |
·构建引导贝叶斯网 | 第59-75页 |
·引导贝叶斯网 | 第59-62页 |
·生成引导贝叶斯网结构 | 第62-70页 |
·计算引导贝叶斯网参数 | 第70-75页 |
·引导贝叶斯网对真实问题状态空间反映的契合度试验 | 第75-79页 |
第4章 基于引导贝叶斯网的强化学习(SBN-RL) | 第79-116页 |
·引导贝叶斯网的应用 | 第79-95页 |
·引导贝叶斯网对现有一些研究工作的完善和改进 | 第79-81页 |
·利用引导贝叶斯网引导 Agent 学习 | 第81-88页 |
·利用引导贝叶斯网分解学习任务 | 第88-95页 |
·分隔状态空间 | 第95-106页 |
·用阶段性子目标的关键状态分隔状态空间可能存在的问题 | 第95-97页 |
·利用关卡状态协同关键状态分隔状态空间 | 第97-102页 |
·合成最优解与从原始状态空间求出最优解的等价性证明 | 第102-106页 |
·基于引导贝叶斯网的强化学习(SBN-RL) | 第106-116页 |
·基于引导贝叶斯网的强化学习(SBN-RL) | 第106-108页 |
·实施SBN-RL方法的数据结构 | 第108-113页 |
·实施SBN-RL方法的框架步骤 | 第113-116页 |
第5章 SBN-RL方法在多路口交通灯最优控制问题上的应用 | 第116-141页 |
·多路口城市交通网络模拟运行环境MIUTS | 第116-120页 |
·交通灯控制 | 第116-117页 |
·多路口的城市交通网络模拟运行环境MIUTS的实现 | 第117-120页 |
·用SBN-RL方法学习多路口交通灯最优控制策略 | 第120-141页 |
·多路口交通灯最优控制问题的强化学习定义 | 第120-124页 |
·用SBN-RL方法学习多路口交通灯的最优控制策略 | 第124-141页 |
第6章 结束语 | 第141-145页 |
致谢 | 第145-146页 |
参考文献 | 第146-153页 |
附录 | 第153-161页 |
1. 在读博士研究生期间发表的科研论文 | 第153页 |
2. 在读博士研究生期间参加的科研项目 | 第153页 |
3. 多路口交通灯的最优控制问题的一个最优解的示意图 | 第153-161页 |