| 摘要 | 第9-11页 |
| ABSTRACT | 第11-12页 |
| 第一章 绪论 | 第13-25页 |
| 1.1 研究背景 | 第13-19页 |
| 1.1.1 优化控制方法的研究概况 | 第13-15页 |
| 1.1.2 增强学习的研究概况 | 第15-19页 |
| 1.2 基于值函数逼近的增强学习研究概况 | 第19-21页 |
| 1.2.1 值函数逼近概述 | 第19-20页 |
| 1.2.2 时域差值学习方法概述 | 第20页 |
| 1.2.3 基函数构造方法概述 | 第20-21页 |
| 1.3 增强学习在移动机器人路径跟踪控制中的应用 | 第21-23页 |
| 1.3.1 移动机器人路径跟踪控制方法研究 | 第21-22页 |
| 1.3.2 增强学习在移动机器人路径跟踪问题中的应用 | 第22-23页 |
| 1.4 本文主要研究内容与成果 | 第23-25页 |
| 第二章 基于快速梯度下降法的时域差值学习及其在优化控制方法中的应用 | 第25-45页 |
| 2.1 马尔科夫决策过程和时域差值学习 | 第25-29页 |
| 2.1.1 马尔科夫决策过程(Markov Decision Process,MDP) | 第26-27页 |
| 2.1.2 基于梯度下降法的时域差值学习 | 第27-29页 |
| 2.2 基于快速梯度下降法的时域差值学习 | 第29-33页 |
| 2.2.1 带有梯度修正项的线性时域差值算法 | 第29-31页 |
| 2.2.2 基于TDC算法的学习预测问题 | 第31-33页 |
| 2.3 基于TDC算法的值函数逼近在优化控制问题中的应用 | 第33-38页 |
| 2.3.1 基于TDC算法的改进Q-Learning方法 | 第33-35页 |
| 2.3.2 基于TDC算法的改进HDP方法 | 第35-38页 |
| 2.4 仿真结果与分析 | 第38-44页 |
| 2.4.1 仿真问题描述与建模 | 第38-40页 |
| 2.4.2 仿真结果与分析 | 第40-44页 |
| 2.5 本章小结 | 第44-45页 |
| 第三章 基于流形的增强学习方法研究 | 第45-63页 |
| 3.1 流形与流形学习 | 第45-46页 |
| 3.2 基于流形的对偶启发式规划方法 | 第46-53页 |
| 3.2.1 带有全局信息的拉普拉斯特征映射及其基函数构造方法 | 第46-51页 |
| 3.2.2 基于基函数自动构造的对偶启发式规划方法 | 第51-53页 |
| 3.3 仿真与实验结果分析 | 第53-62页 |
| 3.3.1 板-球控制问题 | 第54-57页 |
| 3.3.2 倒立摆平衡控制问题 | 第57-62页 |
| 3.4 本章小结 | 第62-63页 |
| 第四章 基于DHP-PID算法的移动机器人路径跟踪控制研究 | 第63-78页 |
| 4.1 移动机器人路径跟踪控制 | 第63-65页 |
| 4.1.1 移动机器人路径跟踪控制方法 | 第63-64页 |
| 4.1.2 移动机器人路径跟踪控制问题建模 | 第64-65页 |
| 4.2 基于自学习PID控制的路径跟踪方法 | 第65-68页 |
| 4.2.1 路径跟踪的自学习PID算法及其MDP建模 | 第65-66页 |
| 4.2.2 基于DHP的自学习PID控制算法框架 | 第66-68页 |
| 4.3 移动机器人路径跟踪控制仿真 | 第68-75页 |
| 4.3.1 圆形路径跟踪 | 第68-71页 |
| 4.3.2 正弦曲线跟踪 | 第71-73页 |
| 4.3.3 8 字曲线跟踪 | 第73-75页 |
| 4.4 P3AT移动机器人路径跟踪仿真 | 第75-77页 |
| 4.4.1 先锋机器人仿真平台介绍 | 第75页 |
| 4.4.2 先锋机器人跟踪控制仿真 | 第75-77页 |
| 4.5 本章小结 | 第77-78页 |
| 第五章 结论与展望 | 第78-81页 |
| 5.1 本文工作总结 | 第78-79页 |
| 5.2 研究展望 | 第79-81页 |
| 致谢 | 第81-82页 |
| 参考文献 | 第82-88页 |
| 作者在学期间取得的学术成果 | 第88页 |