首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

基于强化学习的AUV避障研究

摘要第4-5页
Abstract第5-6页
第一章 绪论第11-19页
    1.1 研究背景第11-13页
    1.2 国内外研究现状和发展趋势第13-14页
    1.3 AUV避障方法概述第14-15页
        1.3.1 人工势场法第14页
        1.3.2 人工智能法第14-15页
        1.3.3 强化学习法第15页
    1.4 强化学习法研究现状第15-16页
    1.5 论文主要研究内容第16-19页
第二章 强化学习算法研究第19-31页
    2.1 引言第19-20页
    2.2 强化学习模型第20-22页
        2.2.1 强化学习模型第20-21页
        2.2.2 强化学习基本要素第21-22页
    2.3 马尔科夫决策过程第22-25页
        2.3.1 马尔科夫决策过程第22-23页
        2.3.2 策略和值函数第23-25页
    2.4 强化学习主要问题第25页
        2.4.1 在线学习和离线学习第25页
        2.4.2 延迟的回报第25页
        2.4.3 探索与利用第25页
    2.5 强化学习主要算法第25-30页
        2.5.1 蒙特卡罗方法第26页
        2.5.2 时间差分TD法第26-28页
        2.5.3 Q学习第28-29页
        2.5.4 SARSA学习第29页
        2.5.5 Dyna学习框架第29-30页
        2.5.6 Actor-Critic学习第30页
    2.6 小结第30-31页
第三章Q学习算法改进研究第31-37页
    3.1 引言第31页
    3.2 Q学习算法及其收敛性研究第31-32页
    3.3 Q学习算法主要问题第32-34页
        3.3.1 收敛速度问题第32-33页
        3.3.2 信度分配问题第33页
        3.3.3 探索与利用平衡问题第33-34页
    3.4 Q(λ)学习第34-35页
    3.5 小结第35-37页
第四章 基于CMAC网络的Q学习算法研究第37-47页
    4.1 引言第37页
    4.2 BP神经网络第37-42页
        4.2.1 BP网络的学习算法第37-41页
        4.2.2 BP网络的设计第41-42页
    4.3 CMAC神经网络第42-43页
    4.4 基于神经网络的Q学习框架第43-44页
    4.5 基于CMAC的Q学习算法第44页
    4.6 小结第44-47页
第五章 基于改进Q学习的AUV避障研究第47-55页
    5.1 引言第47页
    5.2 仿真实验设计第47-48页
        5.2.1 环境状态表示第47页
        5.2.2 动作空间表示第47页
        5.2.3 奖赏函数设计第47-48页
        5.2.4 动作选择策略设计第48页
    5.3 仿真实验流程第48-49页
    5.4 仿真结果与分析第49-53页
    5.5 小结第53-55页
第六章 结论第55-57页
    6.1 结论第55页
    6.2 展望第55-57页
参考文献第57-59页
作者简介第59页
作者在攻读硕士学位期间发表的学术论文第59-61页
致谢第61-62页

论文共62页,点击 下载论文
上一篇:政府统计部门开展电子商务统计工作现状、问题及对策
下一篇:J监狱青年民警教育培训的问题与对策研究