| 第一章 绪论 | 第1-23页 |
| ·DEDS概述 | 第14-16页 |
| ·DEDS定义及特点 | 第14页 |
| ·DEDS的分类及有关研究理论和方法 | 第14-16页 |
| ·SMDP/MDP及性能势理论 | 第16-18页 |
| ·强化学习 | 第18-21页 |
| ·强化学习定义 | 第18-19页 |
| ·强化学习算法 | 第19-20页 |
| ·强化学习优点 | 第20-21页 |
| ·神经元动态规划 | 第21-22页 |
| ·神经元动态规划概念 | 第21页 |
| ·神经元动态规划模型 | 第21-22页 |
| ·文章的组织结构安排 | 第22-23页 |
| 第二章 半Markov决策过程 | 第23-33页 |
| ·SMDP/MDP数学模型 | 第23-25页 |
| ·SMDP数学模型 | 第23-24页 |
| ·MDP数学模型 | 第24-25页 |
| ·SMDP与CTMDP及其等价一致链的关系 | 第25-27页 |
| ·SMDP优化 | 第27-33页 |
| ·优化目标及优化方法 | 第27-28页 |
| ·样本轨道仿真 | 第28-29页 |
| ·SMDP及其等价一致链性能势理论 | 第29-30页 |
| ·基于性能势的Bellman最优性方程 | 第30-33页 |
| 第三章 SMDP基于actor模式的NDP优化 | 第33-47页 |
| ·TD学习 | 第33-35页 |
| ·适合迹 | 第33-34页 |
| ·性能势基于样本轨道的TD学习 | 第34-35页 |
| ·Actor网络近似策略逼近 | 第35-41页 |
| ·Actor网络结构 | 第36-37页 |
| ·Actor网络训练 | 第37-41页 |
| ·梯度法 | 第37-40页 |
| ·样本训练法 | 第40-41页 |
| ·Actor算法最优性能误差界 | 第41页 |
| ·数值例子 | 第41-47页 |
| 第四章 SMDP基于actor-critic模式的NDP优化 | 第47-53页 |
| ·Critic网络近似性能势逼近 | 第47-49页 |
| ·Critic网络结构 | 第47-48页 |
| ·Critic网络训练 | 第48-49页 |
| ·Actor-critic算法 | 第49页 |
| ·Actor-critic算法最优性能误差界 | 第49-50页 |
| ·数值例子 | 第50-53页 |
| 第五章 NDP在呼叫接入控制中的应用 | 第53-62页 |
| ·CAC问题的建模 | 第53-56页 |
| ·CAC中的NDP优化 | 第56-62页 |
| ·Critic模式 | 第56-58页 |
| ·Actor模式 | 第58-60页 |
| ·Actor-critic模式 | 第60-62页 |
| 第六章 总结 | 第62-64页 |
| 参考文献 | 第64-67页 |
| 攻读硕士学位期间主要科研工作和成果 | 第67页 |