摘要 | 第4-5页 |
abstract | 第5页 |
第一章 绪论 | 第8-14页 |
1.1 研究背景及意义 | 第8-9页 |
1.2 研究现状 | 第9-11页 |
1.3 本文主要工作和章节安排 | 第11-14页 |
第二章 RoboCup救援仿真 | 第14-27页 |
2.1 RoboCup救援仿真系统概览 | 第14-20页 |
2.1.1 救援仿真系统模块简介 | 第15-20页 |
2.1.2 救援仿真系统评价体系 | 第20页 |
2.2 RoboCup救援智能体设计方案 | 第20-26页 |
2.2.1 世界模型 | 第22-24页 |
2.2.2 凸包算法 | 第24-26页 |
2.2.3 地图聚类 | 第26页 |
2.4 本章小结 | 第26-27页 |
第三章 弱通信环境下基于动态模糊决策树的智能体决策优化 | 第27-43页 |
3.1 引言 | 第27-28页 |
3.2 系统弱通信条件 | 第28-29页 |
3.3 动态模糊决策树构建 | 第29-34页 |
3.3.1 数据型属性的离散化 | 第29-31页 |
3.3.2 对缺失值的补齐 | 第31页 |
3.3.3 DFDT分类属性选择算法 | 第31-33页 |
3.3.4 基于误差基础的剪枝策略 | 第33-34页 |
3.4 实验与仿真 | 第34-42页 |
3.4.1 训练准确度比较 | 第34-38页 |
3.4.2 综合应用测试 | 第38-42页 |
3.5 本章小结 | 第42-43页 |
第四章 基于SVM-Q模型的单智能体Q学习决策优化 | 第43-57页 |
4.1 引言 | 第43-44页 |
4.2 强化学习 | 第44-46页 |
4.2.1 Q学习介绍 | 第44-45页 |
4.2.2 动作选择策略 | 第45-46页 |
4.3 支持向量机(SVM) | 第46-49页 |
4.3.1 支持向量机的构建 | 第46-48页 |
4.3.2 使用核映射的非线性模型 | 第48-49页 |
4.4 基于SVM的Q学习 | 第49-52页 |
4.4.1 基于SVM的Q学习模型构建 | 第49-50页 |
4.4.2 基于滚动时间机制的SVM | 第50-52页 |
4.5 仿真与实验分析 | 第52-56页 |
4.6 本章小结 | 第56-57页 |
第五章 基于经验交互与信度分配的多智能体Q学习决策优化 | 第57-69页 |
5.1 引言 | 第57-59页 |
5.1.1 多智能体强化学习概述 | 第57-58页 |
5.1.2 分布式强化学习方法中存在的问题以及解决方法 | 第58-59页 |
5.2 采用经验共享的Q学习 | 第59-62页 |
5.3 强化信号的信度分配 | 第62-65页 |
5.3.1 RoboCup任务分解 | 第62-63页 |
5.3.2 强化信号奖赏值构建与优化 | 第63-65页 |
5.4 仿真与实验 | 第65-68页 |
5.5 本章小结 | 第68-69页 |
第六章 总结与展望 | 第69-71页 |
6.1 本文工作总结 | 第69页 |
6.2 进一步研究展望 | 第69-71页 |
参考文献 | 第71-74页 |
附录1 攻读硕士学位期间申请的专利 | 第74-75页 |
附录2 攻读硕士学位期间所获荣誉 | 第75-76页 |
致谢 | 第76页 |