第一章 绪论 | 第1-18页 |
·马尔可夫决策过程概述 | 第12-14页 |
·Markov决策过程的应用背景 | 第12-13页 |
·Markov决策过程的优化控制和性能势 | 第13-14页 |
·强化学习和神经元动态规划 | 第14-16页 |
·论文组织结构安排 | 第16-18页 |
第二章 Markov决策过程 | 第18-33页 |
·Markov决策过程的分类和数学模型 | 第18-22页 |
·Markov决策过程的分类 | 第19页 |
·Markov决策过程的数学模型描述 | 第19-22页 |
·Markov决策过程的优化 | 第22-26页 |
·Markov决策过程的优化目标 | 第22-23页 |
·样本轨道和仿真优化 | 第23-24页 |
·泊松(Poisson)方程和性能势 | 第24-25页 |
·基于性能势的最优性原理和最优性方程 | 第25-26页 |
·SMDP和α-一致化链 | 第26-33页 |
·SMDP数学模型 | 第27-28页 |
·SMDP等价无穷小生成子和等价Markov过程 | 第28-30页 |
·SMDP的α-一致化Markov链 | 第30-33页 |
第三章 MDP基于Monte-Carlo仿真的NDP优化 | 第33-48页 |
·Monte-Carlo仿真 | 第33-34页 |
·MDP基于性能势的优化算法 | 第34-36页 |
·策略迭代算法 | 第34-35页 |
·数值迭代算法 | 第35页 |
·仿真算法 | 第35-36页 |
·SMDP/MDP基于性能势的NDP优化 | 第36-44页 |
·神经元动态规划 | 第36-37页 |
·基于样本轨道的仿真优化 | 第37-38页 |
·基于Critic模型的神经元策略迭代 | 第38-40页 |
·神经元策略迭代算法的性能误差界 | 第40-42页 |
·有关结果的推广 | 第42-44页 |
·数值例子 | 第44-48页 |
第四章 MDP基于TD(0)学习的NDP优化 | 第48-61页 |
·TD学习 | 第48-49页 |
·MDP基于TD(0)学习的NDP方法 | 第49-55页 |
·优化方法 | 第49-52页 |
·SMDP基于TD(0)学习的NDP优化 | 第52页 |
·数值例子 | 第52-55页 |
·折扣平均准则统一的NDP方法 | 第55-61页 |
·性能势的参数TD学习 | 第56-57页 |
·优化算法 | 第57-58页 |
·数值例子 | 第58-61页 |
第五章 总结 | 第61-62页 |
参考文献 | 第62-66页 |
攻读硕士学位期间主要科研工作和成果 | 第66页 |