强化学习维数灾问题解决方法研究

摘要	第1-4页
ABSTRACT	第4-9页
第一章引言	第9-14页
·问题的提出	第9-10页
·国内外研究现状	第10-12页
·国内研究现状	第10-11页
·国外研究现状	第11-12页
·论文主要研究内容	第12页
·文章内容安排	第12-14页
第二章理论基础	第14-24页
·强化学习简介	第14-16页
·强化学习发展历史	第16-18页
·强化学习理论基础	第18-20页
·强化学习主要算法	第20-23页
·瞬时差分方法	第21-22页
·行动者—批评家算法	第22页
·R-learning算法	第22-23页
·本章小结	第23-24页
第三章一种大规模离散空间中的高斯强化学习方法	第24-33页
·高斯过程	第24-27页
·高斯过程简介	第24-25页
·高斯过程原理	第25-27页
·高斯过程强化学习方法	第27-29页
·使用高斯过程的回归方法	第27-28页
·基于高斯过程的状态值函数回归算法	第28-29页
·实验结果和分析	第29-32页
·本章小结	第32-33页
第四章一种基于动作分值的分层强化学习奖赏优化方法	第33-42页
·分层强化学习	第33-35页
·无限循环任务的分层方法	第35-36页
·动作分值	第36页
·无限循环任务中基于动作分值的奖赏优化	第36-37页
·奖赏优化算法	第37-38页
·引入分治机制的动作分值	第38-39页
·实验以及结果分析	第39-41页
·本章小结	第41-42页
第五章强化学习在Ad Hoc无线网络路由算法中的应用	第42-56页
·Ad Hoc网络	第42-48页
·Ad Hoc网络概述	第42-43页
·Ad Hoc网络特征	第43页
·Ad Hoc网络结构	第43-46页
·Ad Hoc网络路由算法	第46-48页
·强化学习在Ad Hoc路由算法中的应用	第48-51页
·AODV路由协议详细介绍	第48-49页
·Ad Hoc无线网络中的强化学习模型	第49-50页
·RS-AODV路由协议	第50-51页
·Ad Hoc网络中的RS-AODV路由算法	第51页
·实验以及结果分析	第51-54页
·仿真环境	第52页
·仿真结果	第52-54页
·本章小结	第54-56页
第六章总结与展望	第56-58页
·本文工作总结	第56-57页
·以后的工作展望	第57-58页
参考文献	第58-64页
攻读硕士期间发表(录用)的论文和参加的科研项目	第64-65页
致谢	第65-66页
详细摘要	第66-68页