首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于逻辑马尔可夫决策过程的关系强化学习研究

致谢第1-7页
摘要第7-9页
Abstract第9-12页
目录第12-16页
插图第16-18页
表格第18-19页
算法第19-20页
第一章 绪论第20-28页
 第一节 人工智能第20-21页
 第二节 机器学习第21-22页
 第三节 强化学习第22-23页
 第四节 关系强化学习第23-24页
 第五节 主要工作第24-25页
  一、逻辑马尔可夫决策过程nLMDP第24-25页
  二、替换学习第25页
  三、状态演化第25页
 第六节 章节安排第25-28页
第二章 强化学习第28-42页
 第一节 强化学习思想第28-31页
  一、试错学习第28-29页
  二、最优控制第29-30页
  三、时序差分第30页
  四、现代强化学习第30-31页
 第二节 强化学习模型第31-34页
  一、强化学习框架第31-32页
  二、马尔可夫决策过程第32-34页
 第三节 强化学习方法第34-39页
  一、动态规划第34-35页
  二、蒙特卡罗第35页
  三、时序差分第35-39页
 第四节 小结第39-42页
第三章 状态行动表示第42-52页
 第一节 命题表示第42-47页
  一、线性泛化第43-45页
  二、梯度下降第45-46页
  三、决策树第46-47页
 第二节 结构表示第47-50页
  一、关系表示第47-48页
  二、图表示第48页
  三、积木世界第48-50页
 第三节 小结第50-52页
第四章 关系强化学习第52-64页
 第一节 关系马尔可夫决策过程第52-54页
  一、逻辑术语第53页
  二、因子化第53-54页
 第二节 关系回归第54-55页
 第三节 LOMDP第55-59页
  一、模型第55-58页
  二、学习方法第58-59页
 第四节 其它相关工作第59-61页
 第五节 小结第61-64页
第五章 逻辑马尔可夫决策过程第64-76页
 第一节 抽象状态空间第64-68页
 第二节 抽象行动空间第68-71页
 第三节 逻辑马尔可夫决策过程第71-73页
 第四节 相关工作比较第73页
 第五节 小结第73-76页
第六章 替换学习第76-86页
 第一节 替换评价第76-77页
 第二节 行动自动抽象第77-78页
 第三节 Θ(λ)-学习第78-80页
 第四节 试验第80-82页
 第五节 小结第82-86页
第七章 状态演化第86-98页
 第一节 目标状态第86-88页
 第二节 新合取第88-89页
 第三节 状态演化方法第89-91页
 第四节 试验第91-94页
 第五节 小结第94-98页
第八章 应用讨论第98-104页
 第一节 仿真模拟第98-100页
 第二节 任务分层第100-101页
 第三节 向导策略第101页
 第四节 背景知识第101-102页
 第五节 小结第102-104页
第九章 结论与展望第104-110页
 第一节 本文主要工作第104-105页
 第二节 主要贡献与创新第105-107页
  一、逻辑马尔可夫决策过程第105-106页
  二、替换学习第106-107页
  三、状态演化第107页
 第三节 进一步研究方向第107-110页
参考文献第110-118页
索引第118-128页
发表论文第128-130页
学术活动第130页

论文共130页,点击 下载论文
上一篇:基于语义的信息过滤算法及其应用
下一篇:激光闪光光解研究多环有机分子的光引发电子转移机理