基于强化学习的倒立摆控制研究

摘要	第4-5页
ABSTRACT	第5页
第1章绪论	第8-15页
1.1 引言	第8-9页
1.2 关于强化学习	第9-11页
1.2.1 强化学习的介绍	第9-10页
1.2.2 强化学习的发展历史及研究现状	第10-11页
1.3 关于倒立摆系统	第11-13页
1.3.1 我国研究倒立摆的发展历史和现状	第11-12页
1.3.2 倒立摆系统的控制方法	第12-13页
1.4 本论文主要工作及论文安排	第13-15页
第2章强化学习理论及其算法	第15-24页
2.1 强化学习原理与模型	第15-16页
2.2 强化学习系统的组成要素	第16-17页
2.3 强化学习算法的类型	第17页
2.4 强化学习的主要算法	第17-22页
2.4.1 时间差分算法	第17-19页
2.4.2 自适应启发式评价算法	第19-21页
2.4.3 Q-学习	第21-22页
2.5 强化学习的应用	第22-23页
2.6 小结	第23-24页
第3章倒立摆系统	第24-30页
3.1 引言	第24页
3.2 直线一级倒立摆	第24-29页
3.2.1 直线一级倒立摆系统建模	第25-28页
3.2.2 直线一级倒立摆系统稳定性分析	第28-29页
3.3 小结	第29-30页
第4章基于强化学习的倒立摆控制	第30-46页
4.1 引言	第30页
4.2 基于双BP 网络的强化学习系统	第30-39页
4.2.1 系统结构	第30-31页
4.2.2 评价网络	第31-35页
4.2.3 动作网络	第35-38页
4.2.4 算法流程	第38-39页
4.3 仿真结果分析与结论	第39-45页
4.3.1 不同初始角度的控制效果	第41-42页
4.3.2 不同初始位置的控制效果	第42-43页
4.3.3 有外界扰动的控制效果	第43-44页
4.3.4 变换参数的控制效果	第44-45页
4.4 小结	第45-46页
结论	第46-47页
参考文献	第47-50页
攻读硕士学位期间所发表的学术论文	第50-51页
致谢	第51页