首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

两轮平衡车的强化学习控制算法研究

摘要第4-5页
ABSTRACT第5-6页
第1章 绪论第9-16页
    1.1 课题研究背景和意义第9-10页
    1.2 强化学习的研究现状第10-12页
        1.2.1 强化学习的算法研究第10-11页
        1.2.2 强化学习的应用第11-12页
        1.2.3 强化学习中的难点第12页
    1.3 自平衡车的研究现状第12-15页
    1.4 论文的主要研究内容第15-16页
第2章 基于强化学习算法的控制第16-28页
    2.1 强化学习的基本原理第16-20页
        2.1.1 强化学习的基本要素第16-18页
        2.1.2 马尔可夫决策过程第18页
        2.1.3 动态规划求解第18-20页
    2.2 强化学习的常见算法第20-21页
    2.3 动作决策第21-22页
    2.4 仿真实验第22-27页
        2.4.1 建立仿真模型第22-23页
        2.4.2 算法实现第23-25页
        2.4.3 仿真结果第25-27页
    2.5 本章小结第27-28页
第3章 值函数逼近第28-38页
    3.1 问题的提出和解决办法第28-30页
    3.2 基于BP神经网络的值函数逼近第30-32页
        3.2.1 BP神经网络基本概念第30-31页
        3.2.2 值函数逼近第31页
        3.2.3 随机梯度下降第31-32页
    3.3 基于BP神经网络的Q-learning算法第32-34页
        3.3.1 算法框架及原理第33-34页
        3.3.2 算法流程第34页
    3.4 仿真实验第34-37页
    3.5 本章小结第37-38页
第4章 基于Actor-Critic框架的算法设计第38-54页
    4.1 Actor-Critic框架模型第38-39页
    4.2 连续状态和动作的实现第39-42页
        4.2.1 连续空间的Actor-Critic第39-40页
        4.2.2 算法实现的原理第40-41页
        4.2.3 算法流程第41-42页
    4.3 平衡车的建模第42-47页
        4.3.1 运动学建模第43-44页
        4.3.2 拉格朗日法建模第44-47页
    4.4 仿真实验第47-53页
        4.4.1 状态转移及奖赏函数第47-48页
        4.4.2 仿真结果第48-51页
        4.4.3 与离散化方法的比较第51-53页
    4.5 本章小结第53-54页
结论第54-56页
参考文献第56-60页
攻读硕士学位期间发表的论文及其它成果第60-62页
致谢第62页

论文共62页,点击 下载论文
上一篇:面向机器人辅助脊柱微创手术的神经电生理监测预警研究
下一篇:基于无速度传感器的变风速风力发电机的二阶滑模控制策略研究