基于强化学习的服务机器人导航研究

摘要	第1-5页
Abstract	第5-10页
第1章绪论	第10-18页
·引言	第10页
·服务机器人概述	第10-13页
·服务机器人的定义及应用	第10-11页
·服务机器人的研究及关键技术	第11-13页
·课题来源及研究的意义	第13-15页
·课题的来源	第13页
·课题研究的目的意义	第13-15页
·强化学习的发展史及研究现状	第15-16页
·强化学习的发展史	第15-16页
·强化学习的研究现状	第16页
·本文的主要内容和组织结构	第16-18页
第2章强化学习的基础理论	第18-28页
·引言	第18页
·强化学习模型	第18-20页
·马尔可夫决策过程	第18-19页
·强化学习的基本原理	第19-20页
·强化学习系统的组成元素	第20-23页
·强化学习四要素	第20-21页
·状态值函数	第21-23页
·探索和利用的平衡	第23-24页
·Q 学习	第24-26页
·Q 学习的基本算法	第24-25页
·Q 学习的实现方法	第25-26页
·Q 学习的主要步骤	第26页
·本章小结	第26-28页
第3章基于强化学习的反应式导航研究	第28-39页
·引言	第28页
·机器人强化学习系统设计	第28-32页
·机器人模型	第28-29页
·环境状态的划分	第29-30页
·机器人行为动作的定义	第30-31页
·奖赏回报函数的设定	第31-32页
·动作选择机制	第32-33页
·资格迹—Q 学习算法	第33-34页
·基于强化学习的反应式导航步骤	第34-35页
·仿真实验结果及分析	第35-37页
·本章小结	第37-39页
第4章基于强化学习的静态环境路径规划	第39-55页
·引言	第39页
·路径规划	第39-40页
·栅格（或几何）法	第39-40页
·拓扑图法	第40页
·基于强化学习的路径规划	第40-49页
·地图预处理	第41-43页
·地图强化学习	第43-46页
·先验地图学习的流程	第46页
·路径规划导航	第46-48页
·路径规划的仿真结果	第48-49页
·改进的强化学习系统	第49-51页
·规划路径分析	第49页
·动作空间和奖赏回报的改进	第49-51页
·改进后的导航控制仿真结果	第51页
·轮盘旋转学习策略	第51-53页
·轮盘旋转策略	第51-52页
·轮盘旋转学习策略的分析	第52-53页
·本章小结	第53-55页
第5章基于综合控制的动态环境导航研究	第55-65页
·引言	第55页
·基于模糊逻辑的避碰控制	第55-59页
·模糊控制原理	第55-56页
·机器人避碰控制规则	第56-59页
·强化学习路径规划与模糊避障的融合	第59-60页
·综合导航控制的结构	第60页
·综合控制下的导航流程	第60-62页
·基于综合控制的导航仿真结果	第62-64页
·本章小结	第64-65页
结论	第65-67页
参考文献	第67-72页
致谢	第72页