摘要 | 第4-5页 |
Abstract | 第5-6页 |
符号对照表 | 第12-14页 |
1 绪论 | 第14-25页 |
1.1 研究背景和意义 | 第14-15页 |
1.2 高超声速飞行器技术的研究进展 | 第15-19页 |
1.2.1 美国高超声速飞行器研究进展 | 第15-18页 |
1.2.2 其它国家高超声速飞行器研究进展 | 第18-19页 |
1.3 高超声速飞行器控制技术的研究进展 | 第19-22页 |
1.4 增强学习在飞行控制领域的应用现状 | 第22-23页 |
1.5 本文的主要研究内容与结构 | 第23-25页 |
2 高超声速飞行器动力学建模与特性分析 | 第25-39页 |
2.1 高超声速飞行器模型基本参数 | 第25-26页 |
2.2 高超声速飞行器动力学模型 | 第26-36页 |
2.2.1 坐标系定义及变换 | 第26-28页 |
2.2.2 高超声速飞行器运动方程 | 第28-34页 |
2.2.3 高超声速飞行器空气动力学及推力模型 | 第34-36页 |
2.3 高超声速飞行器纵向模型及特性分析 | 第36-38页 |
2.4 本章小结 | 第38-39页 |
3 增强学习的理论框架 | 第39-63页 |
3.1 Markov决策过程 | 第40-46页 |
3.1.1 固定集合的MDP | 第40-44页 |
3.1.2 随机集合的MDP | 第44-46页 |
3.2 离散空间值函数增强学习理论 | 第46-51页 |
3.2.1 TD(λ)学习算法 | 第47-49页 |
3.2.2 Q值学习算法 | 第49-50页 |
3.2.3 SARSA学习算法 | 第50-51页 |
3.3 连续空间Markov决策问题的增强学习算法 | 第51-62页 |
3.3.1 增强学习值函数逼近器 | 第52-56页 |
3.3.2 近似值函数学习算法 | 第56-59页 |
3.3.3 自适应启发评价算法 | 第59-62页 |
3.4 本章小结 | 第62-63页 |
4 值函数梯度增强学习的算法研究 | 第63-81页 |
4.1 值函数梯度学习 | 第64-69页 |
4.1.1 值函数梯度学习的基本原理 | 第64-66页 |
4.1.2 On-line值函数梯度增强学习算法 | 第66-68页 |
4.1.3 VGL(λ)与TD(λ)的关系 | 第68-69页 |
4.2 基于行为残差的值函数梯度增强学习算法 | 第69-80页 |
4.2.1 含等式约束的函数极值 | 第69-71页 |
4.2.2 值函数梯度中的行为残差 | 第71-74页 |
4.2.3 算法的收敛性分析 | 第74-77页 |
4.2.4 仿真实验与讨论 | 第77-80页 |
4.3 本章小结 | 第80-81页 |
5 增强学习在高超声速飞行器纵向运动控制中的应用 | 第81-97页 |
5.1 高超声速飞行器飞行速度和高度控制模型 | 第81-83页 |
5.2 高维连续状态空间的泛化 | 第83-87页 |
5.2.1 RBF神经网络 | 第83-85页 |
5.2.2 K?均值聚类 | 第85-87页 |
5.3 融合先验知识的高超声速飞行器纵向运动自适应控制 | 第87-96页 |
5.3.1 基于值函数梯度学习的自适应最优控制器结构 | 第87-88页 |
5.3.2 先验知识的获取 | 第88-90页 |
5.3.3 自适应神经网络的更新律 | 第90-93页 |
5.3.4 仿真实验与讨论 | 第93-96页 |
5.4 本章小结 | 第96-97页 |
6 增强学习处理高超声速飞行器模型不确定性问题的研究 | 第97-108页 |
6.1 非线性系统不确定性控制问题的描述 | 第97-99页 |
6.2 基于值函数梯度学习的高超声速飞行器自适应跟踪控制 | 第99-107页 |
6.2.1 值函数梯度学习控制器的再优化方法 | 第99-101页 |
6.2.2 自适应跟踪控制器结构 | 第101-103页 |
6.2.3 仿真实验与讨论 | 第103-107页 |
6.3 本章小结 | 第107-108页 |
7 总结与展望 | 第108-110页 |
致谢 | 第110-111页 |
参考文献 | 第111-122页 |
附录1 攻读学位期间发表的学术论文 | 第122页 |