| 摘要 | 第10-12页 |
| ABSTRACT | 第12-13页 |
| 第一章 绪论 | 第14-30页 |
| 1.1 问题的提出 | 第14-20页 |
| 1.1.1 研究背景 | 第14-18页 |
| 1.1.2 理论背景 | 第18-20页 |
| 1.2 研究现状 | 第20-25页 |
| 1.2.1 不确定性模型方法研究现状 | 第20-22页 |
| 1.2.2 开环最优控制方法研究现状 | 第22-23页 |
| 1.2.3 闭环最优控制方法研究现状 | 第23-24页 |
| 1.2.4 增强学习和Markov决策过程研究现状 | 第24-25页 |
| 1.3 论文研究内容及创新点 | 第25-28页 |
| 1.3.1 研究内容 | 第25-27页 |
| 1.3.2 创新点 | 第27-28页 |
| 1.4 论文组织结构 | 第28-30页 |
| 第二章 基于性能势的Markov决策过程分析 | 第30-52页 |
| 2.1 引言 | 第30页 |
| 2.2 Markov随机过程基本理论 | 第30-35页 |
| 2.2.1 Markov链 | 第31-33页 |
| 2.2.2 Markov过程 | 第33-35页 |
| 2.3 连续时间Markov决策过程 | 第35-44页 |
| 2.3.1 数学定义 | 第35-36页 |
| 2.3.2 栅格上智能体追逃问题 | 第36-44页 |
| 2.4 性能势的观点 | 第44-51页 |
| 2.4.1 Markov链的性能势 | 第44-47页 |
| 2.4.2 Markov过程的性能势 | 第47-51页 |
| 2.5 小结 | 第51-52页 |
| 第三章 连续时间Markov决策过程策略迭代方法 | 第52-79页 |
| 3.1 引言 | 第52页 |
| 3.2 策略迭代 | 第52-59页 |
| 3.2.1 模型定义 | 第52-54页 |
| 3.2.2 算法 | 第54-57页 |
| 3.2.3 与MDPs策略迭代比较 | 第57-59页 |
| 3.3 双车博弈问题 | 第59-66页 |
| 3.3.1 双车博弈定义与解形式 | 第59-60页 |
| 3.3.2 微分对策解 | 第60-66页 |
| 3.4 CTMDPs方法在“双车博弈”中的应用 | 第66-78页 |
| 3.4.1 状态空间,动作集,回报函数 | 第67-68页 |
| 3.4.2 Q阵的构造 | 第68-69页 |
| 3.4.3 仿真试验 | 第69-76页 |
| 3.4.4 结果讨论 | 第76-78页 |
| 3.5 小结 | 第78-79页 |
| 第四章 CTMDPs增强学习方法 | 第79-100页 |
| 4.1 引言 | 第79-80页 |
| 4.2 基于样本的性能势估计 | 第80-90页 |
| 4.2.1 CTMDPs性能势 | 第80-81页 |
| 4.2.2 性能势L步估计算法 | 第81-85页 |
| 4.2.3 性能势TD估计算法 | 第85-87页 |
| 4.2.4 性能势估计仿真实验 | 第87-90页 |
| 4.3 CTMDPs-RL算法 | 第90-94页 |
| 4.3.1 算法设计 | 第90-93页 |
| 4.3.2“利用”与“探索” | 第93-94页 |
| 4.4 倒立摆问题 | 第94-98页 |
| 4.4.1 问题描述 | 第94-96页 |
| 4.4.2 利用CTMDPs-RL算法求解倒立摆问题 | 第96-98页 |
| 4.5 小结 | 第98-100页 |
| 第五章 CTMDPs-RL算法在无人机控制中的应用 | 第100-121页 |
| 5.1 引言 | 第100页 |
| 5.2 求解框架 | 第100-105页 |
| 5.2.1 线性状态转移模型 | 第102-103页 |
| 5.2.2 非线性状态转移模型 | 第103-105页 |
| 5.3 控制策略求解 | 第105-120页 |
| 5.3.1 轨迹跟踪问题求解 | 第106-115页 |
| 5.3.2 定速控制与定高控制问题求解 | 第115-120页 |
| 5.4 小结 | 第120-121页 |
| 第六章 总结与展望 | 第121-124页 |
| 6.1 论文工作总结 | 第121-122页 |
| 6.2 下一步研究方向 | 第122-124页 |
| 致谢 | 第124-125页 |
| 参考文献 | 第125-135页 |
| 作者在学期间取得的学术成果 | 第135页 |