首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

强化学习维数灾问题解决方法研究

摘要第1-4页
ABSTRACT第4-9页
第一章 引言第9-14页
   ·问题的提出第9-10页
   ·国内外研究现状第10-12页
     ·国内研究现状第10-11页
     ·国外研究现状第11-12页
   ·论文主要研究内容第12页
   ·文章内容安排第12-14页
第二章 理论基础第14-24页
   ·强化学习简介第14-16页
   ·强化学习发展历史第16-18页
   ·强化学习理论基础第18-20页
   ·强化学习主要算法第20-23页
     ·瞬时差分方法第21-22页
     ·行动者—批评家算法第22页
     ·R-learning算法第22-23页
   ·本章小结第23-24页
第三章 一种大规模离散空间中的高斯强化学习方法第24-33页
   ·高斯过程第24-27页
     ·高斯过程简介第24-25页
     ·高斯过程原理第25-27页
   ·高斯过程强化学习方法第27-29页
     ·使用高斯过程的回归方法第27-28页
     ·基于高斯过程的状态值函数回归算法第28-29页
   ·实验结果和分析第29-32页
   ·本章小结第32-33页
第四章 一种基于动作分值的分层强化学习奖赏优化方法第33-42页
   ·分层强化学习第33-35页
   ·无限循环任务的分层方法第35-36页
   ·动作分值第36页
   ·无限循环任务中基于动作分值的奖赏优化第36-37页
   ·奖赏优化算法第37-38页
   ·引入分治机制的动作分值第38-39页
   ·实验以及结果分析第39-41页
   ·本章小结第41-42页
第五章 强化学习在Ad Hoc无线网络路由算法中的应用第42-56页
   ·Ad Hoc网络第42-48页
     ·Ad Hoc网络概述第42-43页
     ·Ad Hoc网络特征第43页
     ·Ad Hoc网络结构第43-46页
     ·Ad Hoc网络路由算法第46-48页
   ·强化学习在Ad Hoc路由算法中的应用第48-51页
     ·AODV路由协议详细介绍第48-49页
     ·Ad Hoc无线网络中的强化学习模型第49-50页
     ·RS-AODV路由协议第50-51页
     ·Ad Hoc网络中的RS-AODV路由算法第51页
   ·实验以及结果分析第51-54页
     ·仿真环境第52页
     ·仿真结果第52-54页
   ·本章小结第54-56页
第六章 总结与展望第56-58页
   ·本文工作总结第56-57页
   ·以后的工作展望第57-58页
参考文献第58-64页
攻读硕士期间发表(录用)的论文和参加的科研项目第64-65页
致谢第65-66页
详细摘要第66-68页

论文共68页,点击 下载论文
上一篇:动态模糊逻辑(DFL)真值域谱理论及应用研究
下一篇:嵌入式以太网远程测控系统通用平台的开发及应用