首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

加速强化学习方法研究

摘要第1-5页
Abstract第5-10页
第1章 前言第10-26页
   ·研究意义第10-17页
     ·为什么研究强化学习第10-11页
     ·强化学习的研究历史第11-12页
     ·强化学习当前面临的主要问题第12-13页
     ·现有的解决途径和和存在的问题第13-16页
     ·本文的观点第16-17页
   ·研究内容第17-25页
     ·获取问题的状态空间知识第18-20页
     ·建立引导贝叶斯网第20-22页
     ·基于引导贝叶斯网的强化学习(SBN-RL)第22-24页
     ·SBN-RL方法在多路口交通灯最优控制上的应用第24-25页
   ·全文组织第25-26页
第2章 获取问题的状态空间知识第26-51页
   ·强化学习第26-31页
     ·强化学习简介第26-30页
     ·强化学习存在的问题第30-31页
   ·获取状态空间的知识:链串(State-Clusters)第31-40页
     ·链串第31-33页
     ·生成链串的算法第33-40页
   ·链串的两个应用第40-51页
     ·基于链串的Q学习SCQ-Learning第40-44页
     ·共享链串的多Agent协作强化学习SCMARL第44-51页
第3章 建立引导贝叶斯网第51-79页
   ·关键状态第51-59页
     ·关键状态第51-56页
     ·发现关键状态的算法第56-59页
   ·构建引导贝叶斯网第59-75页
     ·引导贝叶斯网第59-62页
     ·生成引导贝叶斯网结构第62-70页
     ·计算引导贝叶斯网参数第70-75页
   ·引导贝叶斯网对真实问题状态空间反映的契合度试验第75-79页
第4章 基于引导贝叶斯网的强化学习(SBN-RL)第79-116页
   ·引导贝叶斯网的应用第79-95页
     ·引导贝叶斯网对现有一些研究工作的完善和改进第79-81页
     ·利用引导贝叶斯网引导 Agent 学习第81-88页
     ·利用引导贝叶斯网分解学习任务第88-95页
   ·分隔状态空间第95-106页
     ·用阶段性子目标的关键状态分隔状态空间可能存在的问题第95-97页
     ·利用关卡状态协同关键状态分隔状态空间第97-102页
     ·合成最优解与从原始状态空间求出最优解的等价性证明第102-106页
   ·基于引导贝叶斯网的强化学习(SBN-RL)第106-116页
     ·基于引导贝叶斯网的强化学习(SBN-RL)第106-108页
     ·实施SBN-RL方法的数据结构第108-113页
     ·实施SBN-RL方法的框架步骤第113-116页
第5章 SBN-RL方法在多路口交通灯最优控制问题上的应用第116-141页
   ·多路口城市交通网络模拟运行环境MIUTS第116-120页
     ·交通灯控制第116-117页
     ·多路口的城市交通网络模拟运行环境MIUTS的实现第117-120页
   ·用SBN-RL方法学习多路口交通灯最优控制策略第120-141页
     ·多路口交通灯最优控制问题的强化学习定义第120-124页
     ·用SBN-RL方法学习多路口交通灯的最优控制策略第124-141页
第6章 结束语第141-145页
致谢第145-146页
参考文献第146-153页
附录第153-161页
 1. 在读博士研究生期间发表的科研论文第153页
 2. 在读博士研究生期间参加的科研项目第153页
 3. 多路口交通灯的最优控制问题的一个最优解的示意图第153-161页

论文共161页,点击 下载论文
上一篇:混合克隆竞争与启发学习策略的多角色随机游动粒子群算法研究
下一篇:基于条件事件代数的概率逻辑推理和概率逻辑衍推推理