空中机器人的层次化决策与控制系统研究

致谢	第5-7页
摘要	第7-9页
Abstract	第9-11页
缩写清单、术语表	第17-23页
1 绪论	第23-35页
1.1 研究对象、背景及意义	第23-24页
1.2 空中机器人发展现状	第24-27页
1.3 国际空中机器人大赛	第27-31页
1.4 论文研究内容及结构	第31-35页
2 空中机器人对地面移动目标拦截的实时轨迹规划	第35-61页
2.1 引言	第35-37页
2.2 问题描述	第37-40页
2.3 二次型动态规划	第40-46页
2.4 分段式轨迹规划	第46-48页
2.5 仿真	第48-54页
2.6 实物实验	第54-58页
2.7 总结	第58-61页
3 基于神经网络建模补偿的滤波与预测算法	第61-79页
3.1 引言	第61-63页
3.2 深度数据同化	第63-67页
3.3 双积分质点系统仿真	第67-71页
3.4 洛伦兹系统仿真	第71-77页
3.5 总结	第77-79页
4 可视化仿真环境设计及时间预测实验	第79-91页
4.1 引言	第79-80页
4.2 设计初衷	第80-82页
4.3 仿真系统设计	第82-87页
4.4 时间预测模型仿真实验	第87-90页
4.5 总结	第90-91页
5 基于马尔可夫决策过程的决策算法研究	第91-111页
5.1 引言	第91-92页
5.2 任务的数学表述	第92-95页
5.3 问题构建	第95-100页
5.4 求解方法	第100-103页
5.5 仿真实验	第103-107页
5.6 总结	第107-111页
6 连续时间离散动作的强化学习研究	第111-129页
6.1 引言	第111-115页
6.2 背景知识	第115-117页
6.3 算法	第117-121页
6.4 雅达利乒乓球	第121-125页
6.5 牧羊犬行动	第125-126页
6.6 总结	第126-129页
7 总结与展望	第129-133页
7.1 全文工作总结	第129-130页
7.2 未来工作展望	第130-133页
参考文献	第133-143页
附录A: 带动作时间的Q学习收敛性分析	第143-151页
作者简历	第151-153页
攻读博士学位期间科研成果	第153-154页