首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

基于强化学习的移动机器人路径规划研究与实现

摘要第5-6页
Abstract第6页
第1章 绪论第11-21页
    1.1 研究背景及意义第11-12页
    1.2 主要研究内第12-13页
        1.2.1 移动机器人的学习方法第12页
        1.2.2 目前路径规划的主要技术第12-13页
    1.3 国内外研究现状以及分析第13-17页
        1.3.1 非智能路径规划的方法第13-15页
        1.3.2 智能路径规划的方法第15-17页
    1.4 强化学习研究现状以及分析第17-19页
        1.4.1 TD(temporal difference)算法的收敛性研究第18页
        1.4.2 Q Learning的收敛性研究第18页
        1.4.3 泛化性研究第18-19页
        1.4.4 强化学习的应用研究第19页
    1.5 本文主要工作第19-20页
    1.6 章节安排第20-21页
第2章 强化学习概述第21-29页
    2.1 时序差分(Temporal Difference)学习算法第22-24页
    2.2 Q Learning算法第24-26页
        2.2.1 算法描述第24-25页
        2.2.2 影响Q Learning算法的变量第25页
        2.2.3 表格法第25-26页
        2.2.4 函数逼近法第26页
    2.3 Eligibility Traces技术第26-27页
    2.4 本章小结第27-29页
第3章 Q Learning结合RBF网络实现状态连续研究第29-39页
    3.1 算法思想第29页
    3.2 RBF(径向基函数)介绍第29-30页
    3.3 BP算法介绍第30-31页
    3.4 RBF网络介绍第31-33页
        3.4.1 网络结构第31-32页
        3.4.2 基本思想第32页
        3.4.3 RBF网络(径向基函数网络)的设计与求解第32-33页
    3.5 RBF网络Q函数逼近法第33-37页
        3.5.1 基于RBF网络的Q Learning网络结构第34页
        3.5.2 训练RBF网络逼近Q值函数第34-37页
        3.5.3 RBF网络Q函数逼近法简要描述第37页
    3.6 本章小结第37-39页
第4章 Q Learning结合梯度下降法实现动作连续研究第39-47页
    4.1 梯度下降法介绍第39-43页
        4.1.1 梯度下降法描述第39-40页
        4.1.2 利用梯度下降法(GD) 求解非线性系统的第40-42页
        4.1.3 梯度下降法基本步骤第42-43页
    4.2 梯度下降法结合RBF网络求解下一步动作第43-45页
        4.2.1 求解下一步动作算法描述第44页
        4.2.2 Q函数对a偏导的求取第44-45页
    4.3 RBF-Q Learning-GD算法框架流程图第45-46页
    4.4 本章小结第46-47页
第5章 移动机器人仿真实验平台第47-51页
    5.1 Webots实验平台介绍第47-48页
        5.1.1 Webots历史第47-48页
        5.1.2 Webots使用技术第48页
    5.2 poineer2 机器人介绍第48-51页
        5.2.1 移动机器人概览第48-49页
        5.2.2 技术参数第49-50页
        5.2.3 仿真模型第50-51页
第6章 实验及结果分析第51-75页
    6.1 移动机器人路径规划MDP实验模型设计第51-56页
        6.1.1 仿真实验环境第51-52页
        6.1.2 仿真实验目标第52页
        6.1.3 基于Q Learning算法实现自主避障的数学模型设计第52-56页
    6.2 Q Learning之表格法实现路径规划实验第56-61页
        6.2.1 连续变量的离散化第56-57页
        6.2.2 收敛条件第57-58页
        6.2.3 实验程序流程框图第58-59页
        6.2.4 实验结果及分析第59-61页
    6.3 RBF网络Q函数逼近法实现路径规划实验第61-67页
        6.3.1 提出问题和改进思路第61页
        6.3.2 RBF网络的输入和输出第61页
        6.3.3 RBF网络的初始化第61-62页
        6.3.4 程序设计相关第62-63页
        6.3.5 收敛条件第63-64页
        6.3.6 实验程序流程框图第64页
        6.3.7 实验结果及分析第64-67页
    6.4 RBF网络Q函数逼近法结合梯度下降法实现动作连续的路径规划实验第67-71页
        6.4.1 提出问题和改进思路第67页
        6.4.2 实验程序流程框图第67-68页
        6.4.3 实验结果及分析第68-71页
    6.5 实验关键帧第71-72页
    6.6 实验结论第72-75页
        6.6.1 μ值对比图第72页
        6.6.2 性能对比第72-73页
        6.6.3 最优路径光滑度对比第73-74页
        6.6.4 收敛的路径仿真对比图第74-75页
总结与展望第75-77页
参考文献第77-81页
攻读硕士学位期间取得的研究成果第81-82页
致谢第82-83页
附件第83页

论文共83页,点击 下载论文
上一篇:基于Hadoop的大数据关联规则挖掘算法的研究与实现
下一篇:基于变换域特征与深度学习的图像分类研究