基于逻辑马尔可夫决策过程的关系强化学习研究
致谢 | 第1-7页 |
摘要 | 第7-9页 |
Abstract | 第9-12页 |
目录 | 第12-16页 |
插图 | 第16-18页 |
表格 | 第18-19页 |
算法 | 第19-20页 |
第一章 绪论 | 第20-28页 |
第一节 人工智能 | 第20-21页 |
第二节 机器学习 | 第21-22页 |
第三节 强化学习 | 第22-23页 |
第四节 关系强化学习 | 第23-24页 |
第五节 主要工作 | 第24-25页 |
一、逻辑马尔可夫决策过程nLMDP | 第24-25页 |
二、替换学习 | 第25页 |
三、状态演化 | 第25页 |
第六节 章节安排 | 第25-28页 |
第二章 强化学习 | 第28-42页 |
第一节 强化学习思想 | 第28-31页 |
一、试错学习 | 第28-29页 |
二、最优控制 | 第29-30页 |
三、时序差分 | 第30页 |
四、现代强化学习 | 第30-31页 |
第二节 强化学习模型 | 第31-34页 |
一、强化学习框架 | 第31-32页 |
二、马尔可夫决策过程 | 第32-34页 |
第三节 强化学习方法 | 第34-39页 |
一、动态规划 | 第34-35页 |
二、蒙特卡罗 | 第35页 |
三、时序差分 | 第35-39页 |
第四节 小结 | 第39-42页 |
第三章 状态行动表示 | 第42-52页 |
第一节 命题表示 | 第42-47页 |
一、线性泛化 | 第43-45页 |
二、梯度下降 | 第45-46页 |
三、决策树 | 第46-47页 |
第二节 结构表示 | 第47-50页 |
一、关系表示 | 第47-48页 |
二、图表示 | 第48页 |
三、积木世界 | 第48-50页 |
第三节 小结 | 第50-52页 |
第四章 关系强化学习 | 第52-64页 |
第一节 关系马尔可夫决策过程 | 第52-54页 |
一、逻辑术语 | 第53页 |
二、因子化 | 第53-54页 |
第二节 关系回归 | 第54-55页 |
第三节 LOMDP | 第55-59页 |
一、模型 | 第55-58页 |
二、学习方法 | 第58-59页 |
第四节 其它相关工作 | 第59-61页 |
第五节 小结 | 第61-64页 |
第五章 逻辑马尔可夫决策过程 | 第64-76页 |
第一节 抽象状态空间 | 第64-68页 |
第二节 抽象行动空间 | 第68-71页 |
第三节 逻辑马尔可夫决策过程 | 第71-73页 |
第四节 相关工作比较 | 第73页 |
第五节 小结 | 第73-76页 |
第六章 替换学习 | 第76-86页 |
第一节 替换评价 | 第76-77页 |
第二节 行动自动抽象 | 第77-78页 |
第三节 Θ(λ)-学习 | 第78-80页 |
第四节 试验 | 第80-82页 |
第五节 小结 | 第82-86页 |
第七章 状态演化 | 第86-98页 |
第一节 目标状态 | 第86-88页 |
第二节 新合取 | 第88-89页 |
第三节 状态演化方法 | 第89-91页 |
第四节 试验 | 第91-94页 |
第五节 小结 | 第94-98页 |
第八章 应用讨论 | 第98-104页 |
第一节 仿真模拟 | 第98-100页 |
第二节 任务分层 | 第100-101页 |
第三节 向导策略 | 第101页 |
第四节 背景知识 | 第101-102页 |
第五节 小结 | 第102-104页 |
第九章 结论与展望 | 第104-110页 |
第一节 本文主要工作 | 第104-105页 |
第二节 主要贡献与创新 | 第105-107页 |
一、逻辑马尔可夫决策过程 | 第105-106页 |
二、替换学习 | 第106-107页 |
三、状态演化 | 第107页 |
第三节 进一步研究方向 | 第107-110页 |
参考文献 | 第110-118页 |
索引 | 第118-128页 |
发表论文 | 第128-130页 |
学术活动 | 第130页 |