Q-learning研究及其在AUV局部路径规划中的应用

第1章绪论	第1-17页
·水下机器人概述	第10-11页
·移动机器人路径规划	第11-13页
·路径规划问题的分类	第11页
·常用路径规划方法介绍	第11-12页
·墙角问题的解决方法	第12-13页
·水下机器人局部路径规划	第13-14页
·强化学习理论的典型算法及研究进展	第14-15页
·本文所做的工作	第15-17页
第2章强化学习的基本理论	第17-25页
·学习的分类	第17-18页
·强化学习的定义及分类	第18-20页
·强化学习的定义	第18-19页
·强化学习的特点	第19页
·强化学习的分类	第19-20页
·强化学习系统的结构模型	第20-21页
·输入模块的实现方法	第21-22页
·BOX结构方法	第22页
·模糊方法	第22页
·神经网络方法	第22页
·强化学习的目标和强化模块的实现方法	第22-23页
·动作选择模块的实现	第23-24页
·本章小结	第24-25页
第3章 Q-学习及算法的改进	第25-39页
·马尔科夫决策过程	第25-26页
·马尔科夫性质	第25-26页
·马尔科夫决策问题的求解	第26页
·Q-学习的基本算法	第26-31页
·Q-学习的收敛性	第27-28页
·Q-学习神经网络实现的结构	第28-29页
·采用神经网络实现Q-学习算法	第29-31页
·Q-学习算法的改进	第31-37页
·Q(λ)算法	第32-34页
·SARSA(0)算法	第34-36页
·在策略和离策略算法	第34-35页
·SARSA(0)算法的收敛性	第35-36页
·SARSA(λ)算法	第36-37页
·连续动作的强化学习	第37-38页
·本章小结	第38-39页
第4章基于CMAC的Q-学习算法	第39-45页
·CMAC神经网络的结构及基本原理	第39-40页
·CMAC神经网络的结构	第39-40页
·CMAC输出层权值的学习方法	第40页
·CMAC中神经元数目的确定	第40-42页
·CMAC中虚拟层神经元的地址编码	第42-43页
·基于CMAC的强化学习算法	第43-44页
·本章小结	第44-45页
第5章基于强化学习的AUV局部路径规划	第45-53页
·引言	第45页
·环境信息的获取	第45-47页
·传感器的配置及障碍物的探测	第46页
·水下机器人在某一时刻的状态描述	第46-47页
·输入输出变量的选取	第47-48页
·输入状态变量的选取	第47-48页
·输出状态变量的选取	第48页
·即时报酬的选取	第48-49页
·动作选择	第49页
·基于强化学习的AUV局部路径规划方法	第49-52页
·本章小结	第52-53页
第6章仿真实验	第53-66页
·仿真软件的总体介绍	第53-54页
·路径规划网络(网络1)的仿真实现	第54-58页
·网络1的流程图	第54-55页
·仿真结果及分析	第55-58页
·沿墙壁行走网络(网络2)的仿真实现	第58-59页
·复杂环境下水下机器人的路径规划仿真实验	第59-63页
·程序流程图	第59-60页
·实验结果	第60-63页
·强化学习与模糊控制方法在自适应性方面的比较	第63-65页
·本章小结	第65-66页
结论	第66-68页
参考文献	第68-72页
攻读硕士学位期间发表的论文和取得的科研成果	第72-73页
致谢	第73页