基于概率模型检验的无人机不确定决策理论与方法研究

摘要	第10-12页
ABSTRACT	第12-14页
第一章绪论	第15-41页
1.1 问题提出	第15-22页
1.1.1 研究背景	第15-19页
1.1.2 理论背景	第19-21页
1.1.3 研究目标	第21-22页
1.2 国内外研究现状	第22-33页
1.2.1 无人机任务描述与决策方法	第22-25页
1.2.2 MDP参数不确定性的研究	第25-27页
1.2.3 不确定决策和优化求解方法	第27-30页
1.2.4 模型检验	第30-33页
1.3 论文研究内容及创新点	第33-37页
1.3.1 研究内容	第33-35页
1.3.2 创新点	第35-37页
1.4 论文组织结构	第37-41页
第二章基于概率模型检验的不确定决策模型	第41-55页
2.1 序言	第41页
2.2 任务描述语言	第41-43页
2.2.1 线性时序逻辑	第41-42页
2.2.2 Büchi自动机	第42-43页
2.2.3 确定性Rabin自动机	第43页
2.3 不确定马尔科夫决策过程	第43-49页
2.3.1 马尔科夫决策过程的基本描述	第43-45页
2.3.2 MDP的不确定模型	第45-48页
2.3.3 MDP参数的不确定性分级	第48-49页
2.4 不确定条件下的概率模型检验	第49-53页
2.4.1 确定条件下的模型检验	第49页
2.4.2 MDP相关的模型检验的基本概念和定义	第49-50页
2.4.3 MDP与LTL相结合的概率模型检验框架	第50-53页
2.5 本章小结	第53-55页
第三章基于信息差决策理论的无人机鲁棒满意决策方法	第55-81页
3.1 序言	第55-56页
3.2 基于信息差的不确定MDP模型	第56-58页
3.2.1 系统模型	第56-57页
3.2.2 信息差决策理论	第57-58页
3.3 基于信息差的鲁棒满意决策问题	第58-63页
3.3.1 基于信息差的MDP模型	第58页
3.3.2 问题建模	第58-59页
3.3.3 鲁棒满意决策框架	第59-63页
3.4 鲁棒满意策略求解方法	第63-72页
3.4.1 单调性定理	第64-65页
3.4.2 鲁棒满意最优性	第65-66页
3.4.3 最高最坏情况LSP的计算	第66-69页
3.4.4 鲁棒满意策略生成算法	第69-70页
3.4.5 鲁棒性评价算法	第70-72页
3.5 实验结果与分析	第72-80页
3.5.1 实验构建	第72-74页
3.5.2 实验结果与分析	第74-80页
3.6 本章小结	第80-81页
第四章基于PAC增强学习的无人机多目标任务决策方法	第81-111页
4.1 序言	第81-82页
4.2 基于PAC增强学习的近似最优决策	第82-102页
4.2.1 问题描述	第82-83页
4.2.2 安全的探索机制	第83-85页
4.2.3 基于PAC增强学习算法的近似最优决策	第85-92页
4.2.4 算法性能分析	第92-96页
4.2.5 实验设计与算法实现	第96-102页
4.3 面向多目标决策问题的学习方法	第102-110页
4.3.1 问题描述	第103页
4.3.2 分阶段决策方法	第103-105页
4.3.3 基于Q学习的最优策略生成	第105-107页
4.3.4 实验设计与算法实现	第107-110页
4.4 本章小结	第110-111页
第五章基于双有限时域的多无人机协同任务决策方法	第111-129页
5.1 序言	第111-112页
5.2 双有限时域协同序贯决策框架	第112-114页
5.3 有限时域序贯运动策略合成	第114-120页
5.3.1 划分相关任务集合	第114-115页
5.3.2 构造有限时域相交自动机	第115-118页
5.3.3 构造有限时域乘积系统	第118-119页
5.3.4 求解协同序贯行为策略	第119-120页
5.4 滚动时域协同策略执行	第120-122页
5.4.1 有限时域协同策略投影	第120-121页
5.4.2 有限时域协同策略执行	第121-122页
5.5 仿真实验与分析	第122-128页
5.5.1 仿真想定描述	第122-123页
5.5.2 实验过程与结果分析	第123-128页
5.6 本章小结	第128-129页
第六章总结与展望	第129-133页
6.1 论文工作总结	第129-131页
6.2 研究展望	第131-133页
致谢	第133-135页
参考文献	第135-147页
作者在学期间取得的学术成果	第147-149页
附录 A 鲁棒决策方法	第149-155页
A.1 LDC标准	第149-153页
A.2 WRF标准	第153-155页