首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

强化学习方法及其应用研究

摘要第1-7页
ABSTRACT第7-13页
第一章 绪论第13-27页
   ·引言第13-14页
   ·学习方式第14-15页
   ·强化学习发展历史第15-16页
   ·AGENT强化学习技术第16-19页
   ·多AGENT系统第19-23页
     ·多Agent强化学习第20-21页
     ·多Agent强化学习研究现状第21-23页
   ·强化学习的应用第23-25页
   ·本文的组织及主要工作第25-27页
第二章 强化学习理论及算法第27-48页
   ·引言第27页
   ·强化学习的基本原理和模型第27-28页
   ·强化学习的特点第28-29页
   ·强化学习系统的主要组成要素第29-31页
   ·强化学习的主要算法第31-41页
     ·强化学习算法的目的第31-32页
     ·强化学习算法的类型第32-33页
     ·马尔可夫决策过程(MDP)模型第33-35页
     ·Monte Carlo方法第35-36页
     ·瞬时差分(temporal difference, TD)算法第36-38页
     ·Q学习第38-40页
     ·Sarsa算法第40-41页
   ·基于平均报酬模型的强化学习算法第41-45页
     ·报酬模型第41页
     ·最优策略第41-43页
     ·基于平均报酬模型的强化学习主要算法第43-45页
       ·R学习算法第43-44页
       ·H学习算法第44-45页
   ·强化学习中函数逼近问题第45-46页
   ·强化学习中的探索与利用第46-47页
   ·本章小结第47-48页
第三章 连续状态空间下的自适应状态空间构建策略第48-68页
   ·引言第48页
   ·输入状态空间的量化方法第48-50页
     ·BOX方法第48-49页
     ·Kohonen神经网络聚类方法第49-50页
     ·采用模糊方法进行量化第50页
   ·采用函数逼近器实现强化学习泛化第50-51页
   ·基于归一化RBF网络的AHC学习第51-60页
     ·RBF网络与归一化RBF(NRBF)网络第51-55页
     ·基于NRBF的强化学习第55-58页
     ·NRBF的自适应状态空间构建策略第58-60页
   ·仿真实验第60-66页
     ·机器人避障实验第60-64页
     ·机器人导航实验第64-66页
   ·本章小结第66-68页
第四章 基于递阶遗传算法的模糊强化学习系统第68-97页
   ·引言第68-69页
   ·模糊控制系统第69-75页
     ·模糊控制系统原理第69-70页
     ·模糊控制器设计第70-75页
       ·模糊控制器输入变量和输出变量的确定第70-71页
       ·隶属度函数的确定第71页
       ·模糊控制器控制规则设计第71-72页
       ·知识库第72页
       ·模糊化和解模糊化第72-74页
       ·模糊控制器参数的确定第74-75页
   ·遗传算法(GA)第75-82页
     ·简单遗传算法第75-81页
       ·编码第76-77页
       ·适应度函数第77页
       ·种群初始化第77-78页
       ·选择/复制第78-79页
       ·交叉第79页
       ·变异第79-80页
       ·控制参数的选择第80-81页
     ·递阶遗传算法第81-82页
   ·基于递阶遗传算法的模糊强化学习系统(HGAFRL)第82-92页
     ·系统结构第82-83页
     ·自适应评价网络第83-85页
     ·动作选择网络第85-92页
       ·模糊自适应控制网络第85-90页
       ·模糊输出置信度网络第90-92页
   ·仿真实验及分析第92-96页
   ·本章小结第96-97页
第五章 多 AGENT系统分布式强化学习研究第97-123页
   ·引言第97-98页
   ·多AGENT系统分布式强化学习第98-104页
     ·独立强化学习系统第99-101页
     ·群体强化学习系统第101-104页
     ·多Agent系统协调机制第104页
   ·分布式强化学习结构信度分配问题第104-106页
   ·分布式强化学习算法第106-112页
     ·分布式强化学习框架第106页
     ·Markov对策理论基础第106-109页
     ·分布式强化学习算法第109-112页
       ·Minmax-Q学习第109-110页
       ·Nash-Q学习第110-111页
       ·Friend-or-Foe Q学习第111-112页
   ·改进的分布式Q学习算法第112-116页
     ·算法描述第112-114页
     ·仿真实验第114-116页
       ·问题描述第114-115页
       ·仿真结果及分析第115-116页
   ·共享经验策略下构建环境模型第116-122页
     ·估计环境模型第117页
     ·共享经验策略估计环境模型第117-118页
     ·实验仿真与结果分析第118-122页
   ·本章小结第122-123页
第六章 总结与展望第123-125页
参考文献第125-133页
致谢第133-134页
攻读博士期间已发表或录用的论文第134页

论文共134页,点击 下载论文
上一篇:工作记忆理论在英汉交替传译中的应用研究
下一篇:中国地区金融发展与经济增长:panel data分析