1 绪论 | 第1-21页 |
·多机器人系统的研究概述 | 第11-12页 |
·多移动机器人环境中的运动控制研究概述 | 第12-14页 |
·强化学习的研究与应用概述 | 第14-19页 |
·强化学习方法 | 第14-18页 |
·马尔可夫决策过程(Markov Decision Process) | 第14-16页 |
·强化学习中策略的评价 | 第16页 |
·强化学习的要素 | 第16-17页 |
·强化学习的过程 | 第17-18页 |
·强化学习的研究进展 | 第18-19页 |
·本论文的主要工作 | 第19-21页 |
2 动态环境中的模糊建模和规划及运动控制策略强化学习 | 第21-33页 |
·本章概述 | 第21页 |
·动态环境中基于模糊概念的环境建模和运动控制 | 第21-26页 |
·基于模糊集合的环境建模 | 第22-24页 |
·基于模糊环境模型的方向决策 | 第24-25页 |
·运动控制的流程和计算机仿真实验结果及分析 | 第25-26页 |
·动态环境中基于强化学习的运动控制策略自学习 | 第26-30页 |
·使用模式增强网络估计决策参数 | 第26-29页 |
·运动控制策略学习过程 | 第29页 |
·计算机仿真实验结果及分析 | 第29-30页 |
·本章结论 | 第30-33页 |
3 基于模糊状态的强化学习算法 | 第33-51页 |
·本章概述 | 第33页 |
·基于模糊状态的强化学习算法 | 第33-36页 |
·模糊概念和模糊状态 | 第34-35页 |
·模糊状态对学习性能的改进 | 第35页 |
·机器人二维工作空间中的模糊状态的定义 | 第35-36页 |
·多障碍环境中基于FSRL的路径规划 | 第36-42页 |
·多障碍环境中路径规划的马尔可夫决策过程模型 | 第37页 |
·基于FSRL的路径规划与人工势场方法 | 第37-38页 |
·自学习路径规划 | 第38-39页 |
·计算机仿真实验结果及分析 | 第39-42页 |
·基于蚁群优化算法的多障碍环境中的路径优化规划 | 第42-50页 |
·蚁群优化算法 | 第42-43页 |
·基于人工势场初始化和蚁群算法的路径优化规划 | 第43-45页 |
·初始解对蚁群算法性能的影响 | 第43-44页 |
·基于人工势场的路径强度初始化 | 第44-45页 |
·基于蚁群算法的势场优化和路径规划 | 第45页 |
·计算机仿真实验及结果分析 | 第45-50页 |
·基于蚁群算法的优化规划和人工势场法的实验结果比较 | 第47-48页 |
·人工势场作为先验知识对路径优化效率的提高 | 第48-50页 |
·本章结论 | 第50-51页 |
4 基于学习尺度的改进强化学习算法 | 第51-65页 |
·本章概述 | 第51页 |
·基于模糊状态的多尺度强化学习 | 第51-57页 |
·强化学习的学习尺度 | 第51-52页 |
·基于模糊状态的离散状态空间中的学习尺度 | 第52页 |
·不同学习尺度下强化学习的性能 | 第52-55页 |
·基于模糊状态的多尺度强化学习 | 第55-57页 |
·蚁群强化学习算法及延迟优化强化学习 | 第57-64页 |
·蚁群强化学习算法 | 第57-60页 |
·延迟优化强化学习算法 | 第60-64页 |
·本章结论 | 第64-65页 |
5 强化学习中的决策熵和状态熵 | 第65-78页 |
·本章概述 | 第65-66页 |
·离散状态空间中的决策熵 | 第66-69页 |
·随机变量的熵 | 第66页 |
·局部决策熵和全局决策熵 | 第66-67页 |
·全局决策熵作为学习过程中策略收敛程度的度量 | 第67-69页 |
·基于决策熵的自适应学习率调整 | 第69-74页 |
·不同学习率下的学习性能 | 第69-70页 |
·基于决策熵的自适应学习率 | 第70-72页 |
·基于局部决策熵的自适应学习率强化学习算法 | 第72-74页 |
·强化学习中度量观测状态信息不完整性的状态熵 | 第74-76页 |
·强化学习中观测信息的不完整性 | 第74-75页 |
·强化学习中观测状态的先验状态熵和后验状态熵 | 第75-76页 |
·本章结论 | 第76-78页 |
6 基于TeamBots仿真实验平台的多移动机器人控制策略学习 | 第78-91页 |
·本章概述 | 第78页 |
·TeamBots多移动机器人仿真实验平台简介 | 第78-79页 |
·多机器人目标搜索任务的策略学习 | 第79-84页 |
·目标搜索任务简介 | 第79页 |
·机器人目标搜索的控制行为设计 | 第79-80页 |
·机器人目标搜索策略的变学习率强化学习 | 第80-82页 |
·多机器人目标搜索实验及结果分析 | 第82-84页 |
·机器人足球任务的策略学习 | 第84-90页 |
·足球机器人简介 | 第84页 |
·SoccerBots足球机器人仿真平台 | 第84-85页 |
·足球机器人的控制行为设计 | 第85-87页 |
·足球机器人控制策略的变学习率强化学习 | 第87-90页 |
·本章结论 | 第90-91页 |
7 总结与展望 | 第91-93页 |
致谢 | 第93-94页 |
参考文献 | 第94-100页 |
附录:博士研究生阶段所发表的论文 | 第100页 |