首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

基于强化学习的倒立摆控制

摘要第4-6页
Abstract第6页
第1章 绪论第10-16页
    1.1 课题研究的背景及意义第10-11页
    1.2 强化学习的发展历史与研究现状第11-14页
    1.3 强化学习在倒立摆系统的应用情况第14-15页
    1.4 本文的主要研究内容及论文安排第15-16页
第2章 强化学习第16-26页
    2.1 强化学习的基本原理和模型第16页
    2.2 强化学习的基本知识第16-18页
        2.2.1 评价函数第16-17页
        2.2.2 Markov 决策过程第17-18页
    2.3 动态规划方法第18-20页
        2.3.1 策略迭代第18-19页
        2.3.2 值迭代第19-20页
    2.4 时间差分第20-22页
        2.4.1 TD(0)第20页
        2.4.2 n 步截断回报与λ-回报第20-21页
        2.4.3 适合度轨迹第21-22页
    2.5 强化学习的主要算法第22-25页
        2.5.1 Q 学习算法第22-23页
        2.5.2 自适应启发评价算法第23-25页
    2.6 本章小结第25-26页
第3章 倒立摆系统第26-37页
    3.1 倒立摆系统简介第26-27页
        3.1.1 直线倒立摆系统第26页
        3.1.2 环形倒立摆系统第26-27页
    3.2 倒立摆系统的数学模型第27-35页
        3.2.1 直线一级倒立摆系统的数学模型第27-29页
        3.2.2 直线二级倒立摆系统的数学模型第29-35页
    3.3 倒立摆系统的控制算法第35-36页
    3.4 本章小结第36-37页
第4章 基于值函数逼近的强化学习第37-46页
    4.1 表格型强化学习算法第37-38页
    4.2 改进的Q 学习系统第38-40页
    4.3 仿真实验及结果分析第40-44页
    4.4 本章小结第44-46页
第5章 针对连续状态和连续行为空间的强化学习第46-58页
    5.1 基于内部回归神经网络的强化学习系统第46-56页
        5.1.1 系统结构第46-51页
        5.1.2 仿真实验第51-55页
        5.1.3 一级倒立摆物理实体实验第55-56页
    5.2 基于BP 神经网络和适合度轨迹的强化学习系统第56-57页
        5.2.1 系统结构第56-57页
        5.2.2 仿真结果对比第57页
    5.3 本章小结第57-58页
结论第58-60页
参考文献第60-64页
攻读硕士学位期间所发表的学术论文第64-65页
致谢第65页

论文共65页,点击 下载论文
上一篇:中学物理实验情境教学研究
下一篇:基于组件式GIS的唐山市区地质数据管理与环境地质评价