| 中文摘要 | 第1-5页 |
| 英文摘要 | 第5-8页 |
| 目录 | 第8-11页 |
| 第一章 综述 | 第11-30页 |
| ·马尔可夫决策过程的历史背景 | 第11-13页 |
| ·离散时间MDP模型 | 第13-14页 |
| ·策略的几个基本定义及其上的概率空间构造 | 第14-15页 |
| ·常用的几个最优性准则 | 第15-18页 |
| ·国内外DTMDP的研究现状 | 第18-27页 |
| ·本文的主要工作 | 第27-30页 |
| 第二章 DTMDP的上极限和下极限平均准则 | 第30-44页 |
| ·引言 | 第30-31页 |
| ·模型, 概念及定义 | 第31-32页 |
| ·最优性条件及技术引理 | 第32-36页 |
| ·平均费用最优平稳策略的存在性 | 第36-40页 |
| ·例子 | 第40-43页 |
| ·本章结束语 | 第43-44页 |
| 第三章 Borel空间的DTMDP平均最优性问题 | 第44-60页 |
| ·引言 | 第44-45页 |
| ·最优控制问题 | 第45-46页 |
| ·最优性条件 | 第46-51页 |
| ·平均最优平稳策略的存在性 | 第51-54页 |
| ·平均最优平稳策略的半鞅刻划 | 第54-56页 |
| ·例子 | 第56-59页 |
| ·本章结束语 | 第59-60页 |
| 第四章 Borel空间的DTMDP平均期望费用的值迭代算法 | 第60-70页 |
| ·引言 | 第60-61页 |
| ·最优控制问题 | 第61-62页 |
| ·平均费用最优过程 | 第62-65页 |
| ·值迭代算法 | 第65-69页 |
| ·本章结束语 | 第69-70页 |
| 第五章 Borel空间DTMDP的平均样本轨道最优 | 第70-84页 |
| ·引言 | 第70-71页 |
| ·最优控制问题 | 第71-72页 |
| ·最优性条件 | 第72-76页 |
| ·平均样本轨道费用最优平稳策略的存在性 | 第76-81页 |
| ·例子 | 第81-83页 |
| ·本章结束语 | 第83-84页 |
| 第六章 Borel空间DTMDP的方差最优 | 第84-95页 |
| ·引言 | 第84-85页 |
| ·最优控制问题 | 第85-86页 |
| ·最优性条件 | 第86-89页 |
| ·方差最小 | 第89-92页 |
| ·例子 | 第92-94页 |
| ·本章结束语 | 第94-95页 |
| 第七章 Borel空间DTMDP的强n(n =-1,0)-折扣最优 | 第95-110页 |
| ·引言 | 第95-96页 |
| ·最优控制问题 | 第96-97页 |
| ·最优性条件及引理 | 第97-103页 |
| ·主要结果 | 第103-105页 |
| ·例子 | 第105-109页 |
| ·本章结束语 | 第109-110页 |
| 参考文献 | 第110-128页 |
| 博士期间发表和完成的论文 | 第128-130页 |
| 致谢 | 第130-131页 |
| 原创声明 | 第131页 |