首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

基于强化学习的移动机器人自适应模型研究

摘要第4-5页
abstract第5-6页
第一章 绪论第10-16页
    1.1 研究背景及意义第10-11页
    1.2 国内外研究现状与分析第11-14页
        1.2.1 移动机器人路径技术研究现状第11-13页
        1.2.2 强化学习在移动机器人中的方法研究现状第13-14页
    1.3 本文研究内容及结构安排第14-16页
第二章 预备知识第16-27页
    2.1 强化学习简介第16-20页
        2.1.1 马尔可夫决策过程(MDP)第16-17页
        2.1.2 策略的评价第17-18页
        2.1.3 动作的选择方式第18-20页
    2.2 强化学习算法第20-26页
        2.2.1 瞬时差分方法第20-21页
        2.2.2 Q-learning算法第21-25页
        2.2.3 Sarsa学习方法第25-26页
    2.3 强化学习应用中的关键问题第26页
    2.4 本章小结第26-27页
第三章 实验环境介绍第27-32页
    3.1 实验环境介绍第27-31页
        3.1.1 系统硬件结构第27-28页
        3.1.2 系统软件结构第28-29页
        3.1.3 移动机器人行动控制原理第29页
        3.1.4 移动机器人的编码器第29页
        3.1.5 编码器旋转位移量的计算方法第29-31页
    3.2 模型框架介绍第31页
    3.3 本章小结第31-32页
第四章 基于任务的附加奖励函数的Q-learning模型第32-47页
    4.1 环境状态的定义第32页
    4.2 动作离散化第32-34页
    4.3 声纳数据的模糊化处理第34-35页
    4.4 声呐不稳定的处理第35-37页
        4.4.1 ARIMA模型第36-37页
    4.5 奖励函数的设计第37-42页
        4.5.1 基础奖励函数的设计第37-39页
        4.5.2 基于任务的附加奖励函数第39-42页
    4.6 基于目标的附加奖励函数的移动机器人避障导航实验第42-46页
        4.6.1 实验流程第42-43页
        4.6.2 实验结果分析第43-46页
    4.7 本章小结第46-47页
第五章 基于Q-learning的混合Dyna模型第47-61页
    5.1 Dyna基础算法第47-49页
    5.2 小脑算术计算(CMAC)神经网络第49-50页
    5.3 队列优先机制第50-52页
    5.4 启发式动作选择机制第52-54页
    5.5 基于目标的动作值函数初始化第54-55页
    5.6 基于混合Dyna框架的Q-learning算法及实验第55-58页
        5.6.1 混合Dyna算法第55-57页
        5.6.2 基于混合Dyna框架的Q-learning算法及实验第57-58页
    5.7 本章小结第58-61页
第六章 结语与展望第61-63页
    6.1 总结第61-62页
    6.2 展望第62-63页
致谢第63-64页
参考文献第64-69页
作者在学期间取得的学术成果第69页

论文共69页,点击 下载论文
上一篇:泡生法蓝宝石单晶炉的冷却水自动控制系统研究设计
下一篇:异构化TensorFlow架构的研究与实现