面向连续状态的神经网络强化学习研究

致谢	第4-5页
摘要	第5-6页
Abstract	第6-7页
1 绪论	第15-22页
1.1 课题来源	第15页
1.2 研究背景和意义	第15-17页
1.3 国内外研究方法和现状	第17-19页
1.4 研究的主要内容、方法和技术路线	第19-20页
1.5 论文组织结构	第20-22页
2 基础理论	第22-33页
2.1 强化学习模型	第22-23页
2.2 马尔科夫决策过程	第23-25页
2.3 强化学习主要算法	第25-30页
2.4 神经网络	第30-32页
2.5 本章小结	第32-33页
3 基于资格迹的RBF神经网络强化学习研究	第33-44页
3.1 Sarsa强化学习算法	第33-34页
3.2 RBF神经网络	第34-36页
3.3 基于资格迹的RBF网络学习算法	第36-38页
3.4 仿真研究	第38-43页
3.5 本章小结	第43-44页
4 基于ELM-BP神经网络的强化学习研究	第44-60页
4.1 Actor Critic方法	第44-46页
4.2 动作网络BP	第46-49页
4.3 评价网络ELM	第49-51页
4.4 基于资格迹的ELM-BP强化学习	第51-53页
4.5 ELM-BP强化学习在倒立摆控制中的应用	第53-59页
4.6 本章小结	第59-60页
5 总结与展望	第60-62页
5.1 总结	第60-61页
5.2 展望	第61-62页
参考文献	第62-69页
作者简历	第69-71页
学位论文数据集	第71页