| 摘要 | 第1-6页 |
| Abstract | 第6-11页 |
| 1 引言 | 第11-19页 |
| ·双机格斗的研究在空战分析中的重要性 | 第11-12页 |
| ·双机格斗理论发展状况 | 第12-16页 |
| ·矩阵对策方法 | 第12-13页 |
| ·自适应机动逻辑方法(AML) | 第13页 |
| ·微分对策法 | 第13-15页 |
| ·人工智能方法 | 第15-16页 |
| ·设计方案选择依据及主要内容 | 第16-19页 |
| 2 增强学习 | 第19-30页 |
| ·增强学习的概念、特点 | 第19-21页 |
| ·增强学习的发展历史 | 第21-22页 |
| ·增强学习的各种算法 | 第22-27页 |
| ·非联想算法(Non-associative)增强学习 | 第22-23页 |
| ·联想(Associative)增强学习 | 第23-24页 |
| ·延时增强学习算法 | 第24-27页 |
| ·近年来完善的增强学习算法 | 第27页 |
| ·增强学习的应用 | 第27-30页 |
| ·在游戏比赛中的应用 | 第27-28页 |
| ·在控制系统中应用 | 第28页 |
| ·在机器人中的应用 | 第28页 |
| ·在调度管理中应用 | 第28-29页 |
| ·在导弹拦截问题中应用 | 第29-30页 |
| 3 空战格斗的智能控制的建模及具体实现 | 第30-43页 |
| ·双机空战格斗问题的描述 | 第30-33页 |
| ·基于Q-学习的微分对策求解 | 第33-40页 |
| ·主要定理 | 第33-35页 |
| ·Q-学习算法及其收敛性定理 | 第35-36页 |
| ·基于微分对策理论的Q-学习算法 | 第36-37页 |
| ·回报函数(Reward Function)定义 | 第37-38页 |
| ·评价函数(Value Function)的神经网络近似 | 第38-40页 |
| ·空战对策准则的建立 | 第40-41页 |
| ·基于Q-学习双机空战格斗智能算法 | 第41-43页 |
| 4 基于Q-学习的双机空战格斗仿真试验 | 第43-62页 |
| ·基于Q-学习的水平面常速空战仿真试验 | 第43-55页 |
| ·水平面二维常速双机空战建模 | 第43-44页 |
| ·空战对策准则实现 | 第44-47页 |
| ·基于神经网络的评价函数的实现 | 第47-48页 |
| ·仿真试验及分析 | 第48-52页 |
| ·仿真参数分析 | 第52-55页 |
| ·基于Q-学习水平面变速空战仿真试验 | 第55-62页 |
| ·水平面二维变速空战仿真条件 | 第56-57页 |
| ·仿真试验及分析 | 第57-62页 |
| 结论 | 第62-64页 |
| 参考文献 | 第64-69页 |
| 在学研究成果 | 第69-70页 |
| 致谢 | 第70页 |