摘要 | 第1-4页 |
Abstract | 第4-8页 |
1 绪论 | 第8-14页 |
·研究背景和意义 | 第8页 |
·移动机器人路径规划方法 | 第8-10页 |
·基于环境模型的全局路径规划方法 | 第9页 |
·基于传感器信息的局部路径规划方法 | 第9-10页 |
·基于行为的路径规划方法 | 第10页 |
·强化学习的研究现状及其在路径规划中的应用 | 第10-13页 |
·强化学习的研究现状 | 第10-11页 |
·强化学习在路径规划中的应用 | 第11-12页 |
·强化学习在路径规划中的关键问题 | 第12-13页 |
·本文主要工作和内容安排 | 第13-14页 |
2 强化学习理论 | 第14-22页 |
·强化学习的基本模型 | 第14-15页 |
·强化学习的结构模型 | 第15-19页 |
·强化学习的内部结构 | 第15-16页 |
·强化学习模块介绍 | 第16-17页 |
·强化学习模块的实现方法 | 第17-19页 |
·强化学习的典型算法 | 第19-21页 |
·马尔可夫决策过程 | 第19页 |
·动态规划方法 | 第19页 |
·蒙特卡罗方法 | 第19-20页 |
·TD算法 | 第20页 |
·O学习算法 | 第20-21页 |
·Sarsa算法 | 第21页 |
·本章小结 | 第21-22页 |
3 基于行为分解奖赏函数的SA-Q学习移动机器人路径规划 | 第22-38页 |
·模拟退火算法 | 第22-24页 |
·模拟退火中的Metropolis准则 | 第22-23页 |
·模拟退火算法描述 | 第23-24页 |
·SA-Q学习算法 | 第24-25页 |
·基于行为分解奖赏函数的SA-Q学习算法 | 第25-27页 |
·基于行为分解奖赏函数的设计 | 第25-26页 |
·基于行为分解奖赏函数的SA-Q学习算法描述 | 第26-27页 |
·基于行为分解奖赏函数的SA-Q学习移动机器人路径规划仿真实验 | 第27-36页 |
·传感器配置和移动机器人状态描述 | 第27-28页 |
·输入输出变量选择 | 第28-29页 |
·行为分解奖赏函数设计 | 第29-30页 |
·动作选择策略设计 | 第30-31页 |
·仿真实验 | 第31-36页 |
·本章小结 | 第36-38页 |
4 基于动态规划的SA-Q学习移动机器人路径规划 | 第38-50页 |
·动态规划 | 第38-39页 |
·动态规划基本思想 | 第38页 |
·动态规划解题步骤 | 第38-39页 |
·基于动态规划的SA-Q学习算法 | 第39-44页 |
·基于动态规划的O学习算法基本思想 | 第40页 |
·基于动态规划的SA-Q学习算法描述 | 第40-44页 |
·基于动态规划的SA-Q学习移动机器人路径规划仿真实验 | 第44-48页 |
·仿真环境 | 第44-46页 |
·仿真结果与分析 | 第46-48页 |
·本章小结 | 第48-50页 |
5 基于模糊推理的SA-Q学习移动机器人路径规划 | 第50-64页 |
·模糊推理系统 | 第50-51页 |
·模糊推理的系统结构 | 第50-51页 |
·Takagi-Sugeno模糊推理方法 | 第51页 |
·基于模糊推理的SA-Q学习算法 | 第51-55页 |
·基于模糊推理的SA-Q学习算法基本思想 | 第52-53页 |
·基于模糊推理的SA-Q学习算法描述 | 第53-55页 |
·基于模糊推理的SA-Q学习移动机器人路径规划仿真实验 | 第55-62页 |
·输入输出变量选择 | 第55页 |
·变量模糊化 | 第55-56页 |
·模糊推理规则库 | 第56-58页 |
·动作选择策略和奖赏函数设计 | 第58-59页 |
·MATLAB仿真实验 | 第59-62页 |
·本章小结 | 第62-64页 |
6 结论与展望 | 第64-66页 |
·结论 | 第64-65页 |
·工作展望 | 第65-66页 |
致谢 | 第66-68页 |
参考文献 | 第68-71页 |