摘要 | 第1-8页 |
ABSTRACT | 第8-11页 |
目录 | 第11-15页 |
第一章 绪论 | 第15-25页 |
·引言 | 第15页 |
·问题的提出与本研究的意义 | 第15-18页 |
·国内外关于激励学习的研究历史与现状 | 第18-21页 |
·本博士论文所做的工作 | 第21-25页 |
第二章 激励学习算法与Markov决策过程 | 第25-41页 |
·引言 | 第25页 |
·激励学习 | 第25-29页 |
·激励学习的概念 | 第25-28页 |
·激励学习的常规算法 | 第28-29页 |
·Markov决策过程(MDP) | 第29-38页 |
·Markov决策过程的定义 | 第29-31页 |
·求解Markov决策过程的动态规划方法 | 第31-34页 |
·策略递归算法 | 第34-35页 |
·几种常用的最优准则 | 第35-36页 |
·几种常规的激励学习算法 | 第36-38页 |
·部分可观测Markov决策过程(POMDP) | 第38-40页 |
·小结 | 第40-41页 |
第三章 激励学习的遗忘算法 | 第41-57页 |
·引言 | 第41-42页 |
·问题的背景 | 第42-43页 |
·离线策略和在线策略算法 | 第43页 |
·SARSA(λ)算法 | 第43-45页 |
·遗忘准则和Forget-SARSA(λ) | 第45-50页 |
·遗忘准则 | 第45-46页 |
·Forget-SARSA(λ)算法 | 第46-47页 |
·算法性质分析 | 第47-49页 |
·存在的问题和解决办法 | 第49-50页 |
·与限制搜索算法的区别 | 第50页 |
·迷宫实验 | 第50-53页 |
·杆平衡(pole balancing)实验 | 第53-54页 |
·平均渐近遗忘TD(λ)算法 | 第54-55页 |
·平均渐近瞬时差分学习算法 | 第54页 |
·基于平均渐近TD(λ)的遗忘算法 | 第54-55页 |
·结论与未来的工作 | 第55-57页 |
第四章 基于效用聚类的激励学习算法 | 第57-73页 |
·引言 | 第57-58页 |
·U-Tree算法 | 第58-61页 |
·效用聚类算法U—Clustering | 第61-64页 |
·U-Clustering算法的基本原理 | 第61-63页 |
·U-Clustering算法的执行步骤 | 第63-64页 |
·仿真研究 | 第64-72页 |
·基本环境描述与复杂性分析 | 第64-68页 |
·基本环境仿真实验 | 第68-70页 |
·限制环境仿真实验 | 第70-72页 |
·结论与未来的工作 | 第72-73页 |
第五章 部分可观测Markov决策过程的动态合并算法 | 第73-89页 |
·引言 | 第73-74页 |
·POMDP模型 | 第74-76页 |
·区域可观测的POMDP | 第76-78页 |
·辅助系统 | 第76-77页 |
·区域系统 | 第77-78页 |
·合成的部分可观测Markov决策过程 | 第78-82页 |
·多目标Markov决策过程 | 第78-79页 |
·合成的部分可观测Markov决策过程 | 第79-82页 |
·动态合并算法 | 第82-85页 |
·动态合并问题 | 第82页 |
·动态合并算法 | 第82-85页 |
·实验与仿真 | 第85-87页 |
·基本环境仿真实验 | 第85-86页 |
·限制环境仿真实验 | 第86-87页 |
·结论与展望 | 第87-89页 |
第六章 风险敏感度Markov决策过程 | 第89-95页 |
·引言 | 第89-90页 |
·概念与决策模型 | 第90-91页 |
·效用函数 | 第91-92页 |
·性能指标与最优方程 | 第92-93页 |
·小结 | 第93-95页 |
第七章 风险敏感度的激励学习广义平均算法 | 第95-109页 |
·引言 | 第95-96页 |
·概念与模型 | 第96-99页 |
·风险敏感度动态规划算法与Bellman方程 | 第96-98页 |
·关于广义平均的一些基本结论 | 第98-99页 |
·基于动态规划风险敏感度的递归不动点 | 第99-106页 |
·策略空间的最优性 | 第106-107页 |
·结论与未来的工作 | 第107-109页 |
第八章 风险敏感度渐进策略递归激励学习算法 | 第109-129页 |
·引言 | 第109-110页 |
·背景模型 | 第110-114页 |
·基于风险敏感度的渐进策略递归 | 第114-125页 |
·算法描述 | 第114-117页 |
·初始化与策略选择 | 第117-118页 |
·策略转换 | 第118-122页 |
·策略变异 | 第122-124页 |
·子策略组的结构与停止规则 | 第124页 |
·收敛性 | 第124-125页 |
·算法的并行化处理 | 第125-127页 |
·结论与将来的工作 | 第127-129页 |
第九章 多时间尺度风险敏感度Markov决策过程的最优方程与解的最优性问题 | 第129-145页 |
·引言 | 第129-130页 |
·多时间尺度风险敏感度Markov决策过程 | 第130-134页 |
·最优方程与解的最优性条件 | 第134-144页 |
·结论与未来的工作 | 第144-145页 |
第十章 结论与对未来研究的展望 | 第145-150页 |
参考文献 | 第150-159页 |
作者在攻读博士学位期间公开发表的以及与博士论文有关的论文 | 第159-161页 |
作者在攻读博士学位期间所参与的科研项目 | 第161-162页 |
致谢 | 第162-163页 |