分层强化学习方法研究

第1章绪论	第1-17页
·研究动机	第12-13页
·研究内容	第13-14页
·论文结构	第14-17页
第2章分层强化学习综述	第17-39页
·引言	第17页
·分层强化学习基本原理	第17-24页
·强化学习	第17-21页
·半马氏决策过程	第21-22页
·分层与抽象	第22-24页
·分层强化学习方法研究现状	第24-31页
·Option分层强化学习方法	第24-27页
·HAM分层强化学习方法	第27-28页
·MAXQ分层强化学习方法	第28-30页
·比较与分析	第30-31页
·任务自动分层方法研究现状	第31-36页
·瓶颈和路标状态法	第31-32页
·共用子空间法	第32-33页
·多维状态法	第33-34页
·马氏空间法	第34-35页
·其他有关方法	第35页
·任务自动分层方法评价	第35-36页
·多智能体分层强化学习研究现状	第36-37页
·本章小结	第37-39页
第3章 OMQ分层强化学习理论框架与学习算法	第39-67页
·引言	第39页
·用例描述	第39-42页
·OMQ理论框架	第42-48页
·OMQ学习算法	第48-51页
·OMQ学习算法最优性分析	第51-53页
·OMQ学习算法收敛性证明	第53-59页
·OMQ学习算法实验分析	第59-66页
·OMQ值函数分解过程实例剖析	第59-61页
·OMQ与Q-学习算法收敛速度对比分析	第61-65页
·OMQ与Option及MAXQ学习算法性能对比分析	第65-66页
·本章小结	第66-67页
第4章基于免疫聚类的OMQ任务自动分层算法	第67-83页
·引言	第67页
·免疫原理剖析	第67-72页
·生物免疫机理	第68-69页
·人工免疫系统	第69-72页
·基于免疫聚类的Option自动生成算法	第72-76页
·算法描述	第72-74页
·实验分析	第74-76页
·基于二次应答机制的动态分层OMQ算法	第76-81页
·算法描述	第76-78页
·实验分析	第78-81页
·本章小结	第81-83页
第5章未知动态环境中OMQ分层强化学习方法	第83-95页
·引言	第83页
·移动机器人路径规划问题	第83-85页
·未知动态环境中的OMQ分层强化学习算法	第85-87页
·实验分析	第87-92页
·与POMDP有关方法的比较	第92-94页
·本章小结	第94-95页
第6章多智能体OMQ分层强化学习方法	第95-109页
·引言	第95页
·多智能体强化学习问题剖析	第95-96页
·多智能体OMQ分层强化学习框架	第96-98页
·多智能体OMQ分层强化学习算法	第98-100页
·实验分析	第100-108页
·本章小结	第108-109页
结论	第109-111页
参考文献	第111-124页
攻读博士学位期间发表的论文和取得的科研成果	第124-126页
致谢	第126页