首页--数理科学和化学论文--控制论、信息论(数学理论)论文--学习机理论论文

激励学习的若干新算法及其理论研究

摘要第1-8页
ABSTRACT第8-11页
目录第11-15页
第一章 绪论第15-25页
   ·引言第15页
   ·问题的提出与本研究的意义第15-18页
   ·国内外关于激励学习的研究历史与现状第18-21页
   ·本博士论文所做的工作第21-25页
第二章 激励学习算法与Markov决策过程第25-41页
   ·引言第25页
   ·激励学习第25-29页
     ·激励学习的概念第25-28页
       ·激励学习的常规算法第28-29页
   ·Markov决策过程(MDP)第29-38页
     ·Markov决策过程的定义第29-31页
     ·求解Markov决策过程的动态规划方法第31-34页
     ·策略递归算法第34-35页
     ·几种常用的最优准则第35-36页
     ·几种常规的激励学习算法第36-38页
   ·部分可观测Markov决策过程(POMDP)第38-40页
   ·小结第40-41页
第三章 激励学习的遗忘算法第41-57页
   ·引言第41-42页
   ·问题的背景第42-43页
   ·离线策略和在线策略算法第43页
   ·SARSA(λ)算法第43-45页
   ·遗忘准则和Forget-SARSA(λ)第45-50页
     ·遗忘准则第45-46页
     ·Forget-SARSA(λ)算法第46-47页
     ·算法性质分析第47-49页
     ·存在的问题和解决办法第49-50页
     ·与限制搜索算法的区别第50页
   ·迷宫实验第50-53页
   ·杆平衡(pole balancing)实验第53-54页
   ·平均渐近遗忘TD(λ)算法第54-55页
     ·平均渐近瞬时差分学习算法第54页
     ·基于平均渐近TD(λ)的遗忘算法第54-55页
   ·结论与未来的工作第55-57页
第四章 基于效用聚类的激励学习算法第57-73页
   ·引言第57-58页
   ·U-Tree算法第58-61页
   ·效用聚类算法U—Clustering第61-64页
     ·U-Clustering算法的基本原理第61-63页
     ·U-Clustering算法的执行步骤第63-64页
   ·仿真研究第64-72页
     ·基本环境描述与复杂性分析第64-68页
     ·基本环境仿真实验第68-70页
     ·限制环境仿真实验第70-72页
   ·结论与未来的工作第72-73页
第五章 部分可观测Markov决策过程的动态合并算法第73-89页
   ·引言第73-74页
   ·POMDP模型第74-76页
   ·区域可观测的POMDP第76-78页
     ·辅助系统第76-77页
     ·区域系统第77-78页
   ·合成的部分可观测Markov决策过程第78-82页
     ·多目标Markov决策过程第78-79页
     ·合成的部分可观测Markov决策过程第79-82页
   ·动态合并算法第82-85页
     ·动态合并问题第82页
     ·动态合并算法第82-85页
   ·实验与仿真第85-87页
     ·基本环境仿真实验第85-86页
     ·限制环境仿真实验第86-87页
   ·结论与展望第87-89页
第六章 风险敏感度Markov决策过程第89-95页
   ·引言第89-90页
   ·概念与决策模型第90-91页
   ·效用函数第91-92页
   ·性能指标与最优方程第92-93页
   ·小结第93-95页
第七章 风险敏感度的激励学习广义平均算法第95-109页
   ·引言第95-96页
   ·概念与模型第96-99页
     ·风险敏感度动态规划算法与Bellman方程第96-98页
     ·关于广义平均的一些基本结论第98-99页
   ·基于动态规划风险敏感度的递归不动点第99-106页
   ·策略空间的最优性第106-107页
   ·结论与未来的工作第107-109页
第八章 风险敏感度渐进策略递归激励学习算法第109-129页
   ·引言第109-110页
   ·背景模型第110-114页
   ·基于风险敏感度的渐进策略递归第114-125页
     ·算法描述第114-117页
     ·初始化与策略选择第117-118页
     ·策略转换第118-122页
     ·策略变异第122-124页
     ·子策略组的结构与停止规则第124页
     ·收敛性第124-125页
   ·算法的并行化处理第125-127页
   ·结论与将来的工作第127-129页
第九章 多时间尺度风险敏感度Markov决策过程的最优方程与解的最优性问题第129-145页
   ·引言第129-130页
   ·多时间尺度风险敏感度Markov决策过程第130-134页
   ·最优方程与解的最优性条件第134-144页
   ·结论与未来的工作第144-145页
第十章 结论与对未来研究的展望第145-150页
参考文献第150-159页
作者在攻读博士学位期间公开发表的以及与博士论文有关的论文第159-161页
作者在攻读博士学位期间所参与的科研项目第161-162页
致谢第162-163页

论文共163页,点击 下载论文
上一篇:论强化对行政违法的检察监督
下一篇:桥连茂金属和FI型钛化合物催化烯烃聚合研究