首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

Q-learning强化学习算法改进及其应用研究

摘要第1-6页
ABSTRACT第6-14页
第一章 绪论第14-20页
   ·课题背景第14-15页
   ·强化学习的发展历史与研究现状第15-17页
   ·强化学习的应用领域第17-18页
   ·本文的主要工作第18-20页
第二章 强化学习算法的研究第20-30页
   ·基本原理和模型第20页
   ·强化学习的基本知识第20-21页
     ·评价函数第20-21页
     ·Markov决策过程第21页
   ·动态规划方法第21-23页
     ·策略迭代第21-22页
     ·值迭代第22-23页
   ·时间差分第23-26页
     ·TD(0)第23页
     ·n步截断回报与λ-回报第23页
     ·适合度轨迹第23-24页
     ·自适应启发评价算法第24-26页
       ·离散动作的AHC算法第24-25页
       ·连续动作的AHC算法第25-26页
   ·Q-Learning强化学习算法第26-27页
     ·Q学习算法第26页
     ·多步Q学习算法第26-27页
   ·其他典型算法第27-28页
     ·Sarsa学习算法(Sarsa-Learning)第27页
     ·R-Learning学习算法第27-28页
   ·本章小结第28-30页
第三章 强化学习算法在路径寻优中的应用第30-44页
   ·概述第30页
   ·迷宫问题环境描述第30-32页
   ·迷宫问题仿真环境的建立第32-33页
   ·迷宫问题仿真实验及结果分析第33-38页
     ·仿真程序流程第34-35页
       ·Q学习算法流程第34-35页
     ·结果分析第35-38页
       ·仿真幕数的影响第35-36页
       ·学习因子的影响第36-37页
       ·初始Q值的影响第37-38页
   ·Q学习的改进算法第38-42页
     ·Q(λ)学习第38-39页
     ·多步Q学习第39-40页
     ·Q学习与多步Q学习的比较分析第40-42页
   ·本章小结第42-44页
第四章 基于强化学习算法的倒立摆控制系统第44-58页
   ·倒立摆系统简介第44-45页
   ·倒立摆系统的控制算法第45-46页
   ·基于表格型强化学习算法对倒立摆的控制第46-51页
     ·表格型的强化学习算法第47-48页
     ·仿真实验第48-51页
   ·模糊强化学习实现倒立摆控制第51-57页
     ·FUZZY-Q学习第51-53页
       ·状态向量隶属度函数的定义第52-53页
       ·FUZZY-Q学习算法实现倒立摆控制第53页
     ·仿真实验及结果分析第53-57页
   ·本章小结第57-58页
第五章 强化学习算法在中和反应控制中的应用第58-64页
   ·概述第58-59页
   ·问题模型第59-60页
     ·实验建立模型第59-60页
     ·基于强化学习算法的中和反应控制系统第60页
   ·仿真实验第60-63页
     ·环境的定义第60-61页
     ·行为的定义第61页
     ·报酬的定义第61页
     ·Q-learning算法的仿真结果分析第61-63页
   ·本章小结第63-64页
第六章 基于强化学习算法的电梯群控系统的仿真第64-78页
   ·电梯群组调度概述第64-66页
     ·电梯群组调度系统基本概念第64-65页
     ·电梯群组调度方法第65-66页
   ·基于强化学习算法的电梯群组调度第66-73页
     ·建立强化学习算法环境第67-68页
     ·强化学习调度算法第68-72页
     ·电梯调度算法流程第72-73页
   ·仿真实验与结果分析第73-75页
     ·仿真环境的开发第73-74页
     ·仿真结果分析第74-75页
   ·本章小结第75-78页
第七章 总结与展望第78-80页
   ·研究总结第78-79页
   ·工作展望第79-80页
参考文献第80-84页
致谢第84-86页
研究成果及发表的学术论文第86-88页
作者和导师简介第88-89页
硕士研究生学位论文答辩委员会决议书第89-90页

论文共90页,点击 下载论文
上一篇:基于阶跃响应和开闭环转换的系统辨识研究及其应用
下一篇:过程辨识方法的研究及实现