基于DQN的主动人员感知与定位技术研究

摘要	第10-12页
ABSTRACT	第12-13页
第1章绪论	第14-24页
1.1 课题背景与研究意义	第14-16页
1.1.1 课题背景	第14-15页
1.1.2 研究意义	第15-16页
1.2 国内外研究现状	第16-21页
1.2.1 人员感知与定位技术现状	第16-17页
1.2.2 基于视觉的人员感知与定位技术现状	第17-21页
1.3 本文主要工作	第21-22页
1.4 论文结构	第22-24页
第2章基于DQN人员感知与定位的理论研究	第24-34页
2.1 人员感知的卷积网络模型	第24-27页
2.1.1 局部感知原理	第24-25页
2.1.2 网络权值共享	第25-26页
2.1.3 池化作用	第26-27页
2.2 人员定位的强化决策原理	第27-30页
2.2.1 马尔科夫决策过程	第28-29页
2.2.2 值函数估计	第29页
2.2.3 Q学习	第29-30页
2.3 DQN算法原理	第30-32页
2.4 本章小结	第32-34页
第3章主动人员感知与定位的系统建模	第34-46页
3.1 人员感知与定位系统的总体设计	第34-35页
3.2 人员感知与定位的模型设计	第35-37页
3.2.1 环境状态的模型设计	第35-37页
3.2.2 系统的马尔科夫建模	第37页
3.3 智能体的动作设计	第37-39页
3.3.1 动作维度设计	第37-38页
3.3.2 感知范围约束	第38-39页
3.4 目标状态的检验标准	第39-42页
3.4.1 人员检测器模型	第39-41页
3.4.2 检测器模型优化	第41-42页
3.5 回报函数设计	第42-44页
3.6 本章小结	第44-46页
第4章主动人员感知与定位的算法实现	第46-58页
4.1 人员感知定位的决策网络设计	第46-50页
4.1.1 卷积网络层设计	第46-47页
4.1.2 全连接层的竞争架构设计	第47-49页
4.1.3 实验测试与分析	第49-50页
4.2 主动视觉感知的优化模型	第50-54页
4.2.1 决策网络的训练目标	第50-51页
4.2.2 网络权值的更新策略	第51-53页
4.2.3 实验测试与分析	第53-54页
4.3 算法程序的设计与实现	第54-57页
4.3.1 经验样本的学习策略	第54页
4.3.2 训练程序的总体设计	第54-56页
4.3.3 基于Tensorflow的编程实现	第56-57页
4.4 本章小结	第57-58页
第5章 Gazebo环境仿真实验	第58-70页
5.1 实验方案	第58-59页
5.1.1 总体设计	第58页
5.1.2 运行平台配置	第58-59页
5.2 仿真平台系统搭建	第59-63页
5.2.1 环境模型	第59-60页
5.2.2 智能体模型	第60-61页
5.2.3 机器人ROS通信	第61-63页
5.3 仿真验证与分析	第63-68页
5.3.1 训练阶段仿真分析	第63-65页
5.3.2 测试阶段仿真分析	第65-68页
5.3.3 仿真效果演示	第68页
5.4 本章小结	第68-70页
第6章总结与展望	第70-72页
6.1 总结	第70-71页
6.2 展望	第71-72页
参考文献	第72-78页
致谢	第78-80页
攻读硕士期间参与的项目与主要成果	第80-81页
学位论文评阅及答辩情况表	第81页