强化学习在机械手路径规划中的应用

第1章绪论	第1-17页
·引言	第8页
·路径规划技术的研究现状	第8-11页
·全局路径规划方法	第9页
·局部路径规划方法	第9-11页
·强化学习技术的发展历史	第11-13页
·强化学习技术的研究现状	第13-15页
·本文各章节结构安排	第15-17页
第2章单智能体强化学习	第17-34页
·简介	第17-18页
·马尔可夫决策过程(MDP)	第18-21页
·动态规划方法	第21-24页
·值迭代	第22页
·策略迭代	第22-24页
·蒙特卡洛算法	第24-25页
·瞬时差分算法	第25-29页
·瞬时差分(Temporal Difference)	第25-26页
·探索和利用(Exploration versus Exploitation)	第26-27页
·Sarsa算法	第27-28页
·Q学习算法	第28-29页
·多步强化学习	第29-33页
·多步 TD算法	第29-31页
·多步 Sarsa算法	第31-32页
·多步 Q算法	第32-33页
·本章小结	第33-34页
第3章多智能体强化学习	第34-47页
·理论基础	第34-40页
·Markov对策	第34-36页
·Nash均衡	第36-37页
·概念介绍	第37-38页
·基本算法	第38-40页
·算法改进	第40-46页
·基本思想	第41-42页
·预测动作	第42-44页
·预测状态	第44-46页
·本章小结	第46-47页
第4章机械手路径规划	第47-63页
·机械手工作环境	第47-48页
·碰撞检测	第48-51页
·状态及动作分割	第51-54页
·状态分割	第51-54页
·动作分割	第54页
·强化学习回报函数设计	第54-55页
·结构信度分配	第55-56页
·动作选择机制	第56-58页
·单智能体强化学习动作选择	第56-57页
·机械手强化学习动作选择	第57-58页
·仿真程序算法	第58-60页
·机械手路径规划仿真	第60-62页
·本章小结	第62-63页
结论	第63-64页
参考文献	第64-67页
攻读硕士学位期间发表的论文和取得的科研成果	第67-68页
致谢	第68页