基于强化学习的倒立摆控制研究
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第1章 绪论 | 第8-15页 |
1.1 引言 | 第8-9页 |
1.2 关于强化学习 | 第9-11页 |
1.2.1 强化学习的介绍 | 第9-10页 |
1.2.2 强化学习的发展历史及研究现状 | 第10-11页 |
1.3 关于倒立摆系统 | 第11-13页 |
1.3.1 我国研究倒立摆的发展历史和现状 | 第11-12页 |
1.3.2 倒立摆系统的控制方法 | 第12-13页 |
1.4 本论文主要工作及论文安排 | 第13-15页 |
第2章 强化学习理论及其算法 | 第15-24页 |
2.1 强化学习原理与模型 | 第15-16页 |
2.2 强化学习系统的组成要素 | 第16-17页 |
2.3 强化学习算法的类型 | 第17页 |
2.4 强化学习的主要算法 | 第17-22页 |
2.4.1 时间差分算法 | 第17-19页 |
2.4.2 自适应启发式评价算法 | 第19-21页 |
2.4.3 Q-学习 | 第21-22页 |
2.5 强化学习的应用 | 第22-23页 |
2.6 小结 | 第23-24页 |
第3章 倒立摆系统 | 第24-30页 |
3.1 引言 | 第24页 |
3.2 直线一级倒立摆 | 第24-29页 |
3.2.1 直线一级倒立摆系统建模 | 第25-28页 |
3.2.2 直线一级倒立摆系统稳定性分析 | 第28-29页 |
3.3 小结 | 第29-30页 |
第4章 基于强化学习的倒立摆控制 | 第30-46页 |
4.1 引言 | 第30页 |
4.2 基于双BP 网络的强化学习系统 | 第30-39页 |
4.2.1 系统结构 | 第30-31页 |
4.2.2 评价网络 | 第31-35页 |
4.2.3 动作网络 | 第35-38页 |
4.2.4 算法流程 | 第38-39页 |
4.3 仿真结果分析与结论 | 第39-45页 |
4.3.1 不同初始角度的控制效果 | 第41-42页 |
4.3.2 不同初始位置的控制效果 | 第42-43页 |
4.3.3 有外界扰动的控制效果 | 第43-44页 |
4.3.4 变换参数的控制效果 | 第44-45页 |
4.4 小结 | 第45-46页 |
结论 | 第46-47页 |
参考文献 | 第47-50页 |
攻读硕士学位期间所发表的学术论文 | 第50-51页 |
致谢 | 第51页 |