第一章 绪论 | 第1-23页 |
·DEDS概述 | 第14-16页 |
·DEDS定义及特点 | 第14页 |
·DEDS的分类及有关研究理论和方法 | 第14-16页 |
·SMDP/MDP及性能势理论 | 第16-18页 |
·强化学习 | 第18-21页 |
·强化学习定义 | 第18-19页 |
·强化学习算法 | 第19-20页 |
·强化学习优点 | 第20-21页 |
·神经元动态规划 | 第21-22页 |
·神经元动态规划概念 | 第21页 |
·神经元动态规划模型 | 第21-22页 |
·文章的组织结构安排 | 第22-23页 |
第二章 半Markov决策过程 | 第23-33页 |
·SMDP/MDP数学模型 | 第23-25页 |
·SMDP数学模型 | 第23-24页 |
·MDP数学模型 | 第24-25页 |
·SMDP与CTMDP及其等价一致链的关系 | 第25-27页 |
·SMDP优化 | 第27-33页 |
·优化目标及优化方法 | 第27-28页 |
·样本轨道仿真 | 第28-29页 |
·SMDP及其等价一致链性能势理论 | 第29-30页 |
·基于性能势的Bellman最优性方程 | 第30-33页 |
第三章 SMDP基于actor模式的NDP优化 | 第33-47页 |
·TD学习 | 第33-35页 |
·适合迹 | 第33-34页 |
·性能势基于样本轨道的TD学习 | 第34-35页 |
·Actor网络近似策略逼近 | 第35-41页 |
·Actor网络结构 | 第36-37页 |
·Actor网络训练 | 第37-41页 |
·梯度法 | 第37-40页 |
·样本训练法 | 第40-41页 |
·Actor算法最优性能误差界 | 第41页 |
·数值例子 | 第41-47页 |
第四章 SMDP基于actor-critic模式的NDP优化 | 第47-53页 |
·Critic网络近似性能势逼近 | 第47-49页 |
·Critic网络结构 | 第47-48页 |
·Critic网络训练 | 第48-49页 |
·Actor-critic算法 | 第49页 |
·Actor-critic算法最优性能误差界 | 第49-50页 |
·数值例子 | 第50-53页 |
第五章 NDP在呼叫接入控制中的应用 | 第53-62页 |
·CAC问题的建模 | 第53-56页 |
·CAC中的NDP优化 | 第56-62页 |
·Critic模式 | 第56-58页 |
·Actor模式 | 第58-60页 |
·Actor-critic模式 | 第60-62页 |
第六章 总结 | 第62-64页 |
参考文献 | 第64-67页 |
攻读硕士学位期间主要科研工作和成果 | 第67页 |