强化学习方法及其应用研究

摘要	第1-7页
ABSTRACT	第7-13页
第一章绪论	第13-27页
·引言	第13-14页
·学习方式	第14-15页
·强化学习发展历史	第15-16页
·AGENT强化学习技术	第16-19页
·多AGENT系统	第19-23页
·多Agent强化学习	第20-21页
·多Agent强化学习研究现状	第21-23页
·强化学习的应用	第23-25页
·本文的组织及主要工作	第25-27页
第二章强化学习理论及算法	第27-48页
·引言	第27页
·强化学习的基本原理和模型	第27-28页
·强化学习的特点	第28-29页
·强化学习系统的主要组成要素	第29-31页
·强化学习的主要算法	第31-41页
·强化学习算法的目的	第31-32页
·强化学习算法的类型	第32-33页
·马尔可夫决策过程（MDP）模型	第33-35页
·Monte Carlo方法	第35-36页
·瞬时差分(temporal difference, TD)算法	第36-38页
·Q学习	第38-40页
·Sarsa算法	第40-41页
·基于平均报酬模型的强化学习算法	第41-45页
·报酬模型	第41页
·最优策略	第41-43页
·基于平均报酬模型的强化学习主要算法	第43-45页
·R学习算法	第43-44页
·H学习算法	第44-45页
·强化学习中函数逼近问题	第45-46页
·强化学习中的探索与利用	第46-47页
·本章小结	第47-48页
第三章连续状态空间下的自适应状态空间构建策略	第48-68页
·引言	第48页
·输入状态空间的量化方法	第48-50页
·BOX方法	第48-49页
·Kohonen神经网络聚类方法	第49-50页
·采用模糊方法进行量化	第50页
·采用函数逼近器实现强化学习泛化	第50-51页
·基于归一化RBF网络的AHC学习	第51-60页
·RBF网络与归一化RBF（NRBF）网络	第51-55页
·基于NRBF的强化学习	第55-58页
·NRBF的自适应状态空间构建策略	第58-60页
·仿真实验	第60-66页
·机器人避障实验	第60-64页
·机器人导航实验	第64-66页
·本章小结	第66-68页
第四章基于递阶遗传算法的模糊强化学习系统	第68-97页
·引言	第68-69页
·模糊控制系统	第69-75页
·模糊控制系统原理	第69-70页
·模糊控制器设计	第70-75页
·模糊控制器输入变量和输出变量的确定	第70-71页
·隶属度函数的确定	第71页
·模糊控制器控制规则设计	第71-72页
·知识库	第72页
·模糊化和解模糊化	第72-74页
·模糊控制器参数的确定	第74-75页
·遗传算法（GA）	第75-82页
·简单遗传算法	第75-81页
·编码	第76-77页
·适应度函数	第77页
·种群初始化	第77-78页
·选择/复制	第78-79页
·交叉	第79页
·变异	第79-80页
·控制参数的选择	第80-81页
·递阶遗传算法	第81-82页
·基于递阶遗传算法的模糊强化学习系统（HGAFRL）	第82-92页
·系统结构	第82-83页
·自适应评价网络	第83-85页
·动作选择网络	第85-92页
·模糊自适应控制网络	第85-90页
·模糊输出置信度网络	第90-92页
·仿真实验及分析	第92-96页
·本章小结	第96-97页
第五章多 AGENT系统分布式强化学习研究	第97-123页
·引言	第97-98页
·多AGENT系统分布式强化学习	第98-104页
·独立强化学习系统	第99-101页
·群体强化学习系统	第101-104页
·多Agent系统协调机制	第104页
·分布式强化学习结构信度分配问题	第104-106页
·分布式强化学习算法	第106-112页
·分布式强化学习框架	第106页
·Markov对策理论基础	第106-109页
·分布式强化学习算法	第109-112页
·Minmax-Q学习	第109-110页
·Nash-Q学习	第110-111页
·Friend-or-Foe Q学习	第111-112页
·改进的分布式Q学习算法	第112-116页
·算法描述	第112-114页
·仿真实验	第114-116页
·问题描述	第114-115页
·仿真结果及分析	第115-116页
·共享经验策略下构建环境模型	第116-122页
·估计环境模型	第117页
·共享经验策略估计环境模型	第117-118页
·实验仿真与结果分析	第118-122页
·本章小结	第122-123页
第六章总结与展望	第123-125页
参考文献	第125-133页
致谢	第133-134页
攻读博士期间已发表或录用的论文	第134页