解决强化学习中维数灾问题的方法研究

摘要	第1-5页
Abstract	第5-9页
第一章引言	第9-14页
·问题的提出	第9-11页
·国内外研究现状	第11-13页
·国内研究现状	第11-12页
·国外研究现状	第12-13页
·本文的主要工作	第13-14页
·本文组织	第14页
第二章基础理论	第14-33页
·强化学习简介	第15-16页
·强化学习发展历史	第16-18页
·强化学习原理	第18-20页
·强化学习的主要算法	第20-24页
·Monte Carlo 算法	第20-21页
·TD 算法	第21-23页
·Q-Learning 算法	第23-24页
·强化学习发展趋势	第24-26页
·部分感知强化学习	第24-25页
·关系强化学习	第25页
·分层强化学习	第25-26页
·神经网络简介	第26-27页
·神经网络发展历史	第27-28页
·几种典型神经网络	第28-32页
·BP 神经网络	第28-30页
·Hopfield 网络	第30-31页
·CMAC 神经网络	第31-32页
·神经网络的发展趋势	第32页
·本章小结	第32-33页
第三章基于启发式奖赏函数的分层强化学习	第33-48页
·引言	第33页
·分层强化学习发展状况	第33-34页
·基于启发式奖赏函数的分层强化学习算法	第34-41页
·启发式奖赏	第34-35页
·广义的MDP	第35-36页
·子任务的定义及最优策略	第36-37页
·子任务的特征提取及附加奖赏函数	第37-38页
·最优策略	第38-40页
·基于启发式奖赏函数的分层强化学习算法	第40-41页
·实验及结果分析	第41-46页
·实验平台构成	第42-43页
·任务分层	第43页
·子任务特征提取及参数设置	第43-44页
·结果及分析	第44-46页
·结论	第46-47页
·本章小结	第47-48页
第四章基于神经网络的强化学习	第48-66页
·引言	第48页
·泛化与函数估计	第48-49页
·泛化	第48-49页
·函数估计	第49页
·神经网络在强化学习中的应用	第49-50页
·神经网络和强化学习结合的算法：QL-BP 算法	第50-56页
·QL-BP 算法	第50-53页
·仿真实验	第53-56页
·改进的QL-BP 算法	第56-65页
·QL-BP 存在的问题及解决方法	第56-57页
·改进的QL-BP 算法流程	第57-58页
·仿真实验	第58-65页
·本章小结	第65-66页
第五章总结与展望	第66-68页
·本文工作总结	第66-67页
·工作展望	第67-68页
参考文献	第68-73页
攻读硕士学位期间参加的科研项目及发表(录用)的论文	第73-74页
致谢	第74-75页