Q-learning强化学习算法改进及其应用研究

摘要	第1-6页
ABSTRACT	第6-14页
第一章绪论	第14-20页
·课题背景	第14-15页
·强化学习的发展历史与研究现状	第15-17页
·强化学习的应用领域	第17-18页
·本文的主要工作	第18-20页
第二章强化学习算法的研究	第20-30页
·基本原理和模型	第20页
·强化学习的基本知识	第20-21页
·评价函数	第20-21页
·Markov决策过程	第21页
·动态规划方法	第21-23页
·策略迭代	第21-22页
·值迭代	第22-23页
·时间差分	第23-26页
·TD(0)	第23页
·n步截断回报与λ-回报	第23页
·适合度轨迹	第23-24页
·自适应启发评价算法	第24-26页
·离散动作的AHC算法	第24-25页
·连续动作的AHC算法	第25-26页
·Q-Learning强化学习算法	第26-27页
·Q学习算法	第26页
·多步Q学习算法	第26-27页
·其他典型算法	第27-28页
·Sarsa学习算法(Sarsa-Learning)	第27页
·R-Learning学习算法	第27-28页
·本章小结	第28-30页
第三章强化学习算法在路径寻优中的应用	第30-44页
·概述	第30页
·迷宫问题环境描述	第30-32页
·迷宫问题仿真环境的建立	第32-33页
·迷宫问题仿真实验及结果分析	第33-38页
·仿真程序流程	第34-35页
·Q学习算法流程	第34-35页
·结果分析	第35-38页
·仿真幕数的影响	第35-36页
·学习因子的影响	第36-37页
·初始Q值的影响	第37-38页
·Q学习的改进算法	第38-42页
·Q(λ)学习	第38-39页
·多步Q学习	第39-40页
·Q学习与多步Q学习的比较分析	第40-42页
·本章小结	第42-44页
第四章基于强化学习算法的倒立摆控制系统	第44-58页
·倒立摆系统简介	第44-45页
·倒立摆系统的控制算法	第45-46页
·基于表格型强化学习算法对倒立摆的控制	第46-51页
·表格型的强化学习算法	第47-48页
·仿真实验	第48-51页
·模糊强化学习实现倒立摆控制	第51-57页
·FUZZY-Q学习	第51-53页
·状态向量隶属度函数的定义	第52-53页
·FUZZY-Q学习算法实现倒立摆控制	第53页
·仿真实验及结果分析	第53-57页
·本章小结	第57-58页
第五章强化学习算法在中和反应控制中的应用	第58-64页
·概述	第58-59页
·问题模型	第59-60页
·实验建立模型	第59-60页
·基于强化学习算法的中和反应控制系统	第60页
·仿真实验	第60-63页
·环境的定义	第60-61页
·行为的定义	第61页
·报酬的定义	第61页
·Q-learning算法的仿真结果分析	第61-63页
·本章小结	第63-64页
第六章基于强化学习算法的电梯群控系统的仿真	第64-78页
·电梯群组调度概述	第64-66页
·电梯群组调度系统基本概念	第64-65页
·电梯群组调度方法	第65-66页
·基于强化学习算法的电梯群组调度	第66-73页
·建立强化学习算法环境	第67-68页
·强化学习调度算法	第68-72页
·电梯调度算法流程	第72-73页
·仿真实验与结果分析	第73-75页
·仿真环境的开发	第73-74页
·仿真结果分析	第74-75页
·本章小结	第75-78页
第七章总结与展望	第78-80页
·研究总结	第78-79页
·工作展望	第79-80页
参考文献	第80-84页
致谢	第84-86页
研究成果及发表的学术论文	第86-88页
作者和导师简介	第88-89页
硕士研究生学位论文答辩委员会决议书	第89-90页