首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

强化学习及其应用研究

摘要第1-5页
ABSTRACT第5-9页
第一章 绪论第9-15页
   ·研究背景第9-10页
   ·分层强化学习第10-12页
   ·值函数逼近第12-13页
   ·存在的不足和研究内容第13-14页
   ·论文结构第14-15页
第二章 强化学习概述第15-37页
   ·引言第15-16页
   ·马尔可夫决策过程(MARKOVIAN DECISION PROBLEM)第16-18页
   ·强化学习的基本算法第18-32页
     ·动态规划法第18-22页
     ·蒙特卡罗(Monte Carlo,MC)方法第22-26页
     ·时序差分(Temporal-Difference,TD)方法第26-32页
   ·半马尔科夫决策过程第32-34页
   ·分层强化(HIERARCHICAL REINFORCEMENT LEARNING,HRL)学习主要方法第34-36页
   ·本章小结第36-37页
第三章 基于禁忌状态的OPTION自动构造第37-54页
   ·引言第37页
   ·子任务自动构造方法第37-39页
   ·禁忌搜索第39-40页
   ·OPTION子目标搜索第40-43页
     ·基于tabu的路径抽取第41-42页
     ·OPTION子目标发现第42-43页
   ·OPTION起始状态搜索第43-44页
   ·内部策略学习和终止条件第44-45页
   ·仿真实验结果第45-47页
   ·OPTION内部策略学习第47-53页
     ·基于经验重放OPTION内部策略学习第48-49页
     ·仿真实验第49-53页
   ·本章小结第53-54页
第四章 连续空间自适应模糊Q学习第54-71页
   ·引言第54-56页
   ·模糊推理系统和模糊神经网络第56-58页
   ·AFQL强化学习的框架第58-60页
   ·模糊神经网络结构学习第60-61页
   ·模糊神经网络参数调整第61-63页
   ·AFQL决策输出第63-64页
   ·算法流程第64-65页
   ·仿真算例第65-70页
   ·本章小结第70-71页
第五章 基于AFQL的室内机器人导航仿真研究第71-82页
   ·引言第71-73页
   ·机器人仿真和建模第73页
   ·室内导航仿真实验第73-81页
   ·本章小结第81-82页
总结与展望第82-84页
致谢第84-85页
参考文献第85-96页
附录:作者在攻读博士学位期间发表的论文第96页

论文共96页,点击 下载论文
上一篇:抗黄曲霉毒素B1的单链抗体的筛选、表达和改造
下一篇:时滞非线性系统的稳定性及其应用研究