SMDP基于性能势的NDP优化方法及应用研究

第一章绪论	第1-23页
·DEDS概述	第14-16页
·DEDS定义及特点	第14页
·DEDS的分类及有关研究理论和方法	第14-16页
·SMDP/MDP及性能势理论	第16-18页
·强化学习	第18-21页
·强化学习定义	第18-19页
·强化学习算法	第19-20页
·强化学习优点	第20-21页
·神经元动态规划	第21-22页
·神经元动态规划概念	第21页
·神经元动态规划模型	第21-22页
·文章的组织结构安排	第22-23页
第二章半Markov决策过程	第23-33页
·SMDP/MDP数学模型	第23-25页
·SMDP数学模型	第23-24页
·MDP数学模型	第24-25页
·SMDP与CTMDP及其等价一致链的关系	第25-27页
·SMDP优化	第27-33页
·优化目标及优化方法	第27-28页
·样本轨道仿真	第28-29页
·SMDP及其等价一致链性能势理论	第29-30页
·基于性能势的Bellman最优性方程	第30-33页
第三章 SMDP基于actor模式的NDP优化	第33-47页
·TD学习	第33-35页
·适合迹	第33-34页
·性能势基于样本轨道的TD学习	第34-35页
·Actor网络近似策略逼近	第35-41页
·Actor网络结构	第36-37页
·Actor网络训练	第37-41页
·梯度法	第37-40页
·样本训练法	第40-41页
·Actor算法最优性能误差界	第41页
·数值例子	第41-47页
第四章 SMDP基于actor-critic模式的NDP优化	第47-53页
·Critic网络近似性能势逼近	第47-49页
·Critic网络结构	第47-48页
·Critic网络训练	第48-49页
·Actor-critic算法	第49页
·Actor-critic算法最优性能误差界	第49-50页
·数值例子	第50-53页
第五章 NDP在呼叫接入控制中的应用	第53-62页
·CAC问题的建模	第53-56页
·CAC中的NDP优化	第56-62页
·Critic模式	第56-58页
·Actor模式	第58-60页
·Actor-critic模式	第60-62页
第六章总结	第62-64页
参考文献	第64-67页
攻读硕士学位期间主要科研工作和成果	第67页