非标准Multi-armed bandit的随机调度

摘要	第11-13页
ABSTRACT(英文摘要)	第13-14页
主要符号对照表	第16-17页
第一章引言	第17-23页
§1.1 Multi-armed bandits问题简介	第17-20页
§1.1.1 为什么研究Multi-armed bandits?	第17-18页
§1.1.2 研究现状与发展趋势	第18-20页
§1.2 本文的主要工作	第20-21页
§1.3 基础知识	第21-23页
第二章带限制的最优停时问题	第23-47页
§2.1 模型和性质	第24-29页
§2.1.1 最优停时问题模型	第24-26页
§2.1.2 两价值函数的性质和最优停时	第26-29页
§2.2 最优停时	第29-35页
§2.2.1 最小的最优停时	第29-33页
§2.2.2 最大最优停时	第33-35页
§2.3 其他特征	第35-39页
§2.3.1 局部化的价值函数和价值与报酬相等情形	第35-36页
§2.3.2 价值函数另外的正则性特征	第36-39页
§2.3.3 价值函数的汇聚	第39页
§2.4 最优双停时问题	第39-43页
§2.5 可及集的可列停时分解性质	第43-45页
§2.5.1 有关概念和性质	第43-44页
§2.5.2 主要结论	第44-45页
§2.6 本章小结	第45-47页
第三章带切换限制的MAB	第47-73页
§3.1 问题的提出	第47-49页
§3.2 随机时间集上的最优停时问题	第49-55页
§3.2.1 模型与问题背景	第49-51页
§3.2.2 最优停时的求解	第51-55页
§3.3 带切换限制的MAB	第55-70页
§3.3.1 模型说明	第56-57页
§3.3.2 单个arm的Gittins指标过程	第57-65页
§3.3.3 具有限制性的Multi-armed bandit最优调度问题	第65-70页
§3.4 偏序集上带限制的最优停时问题	第70-72页
§3.5 本章小结	第72-73页
第四章变折现率的RAP	第73-91页
§4.1 变折现率的RAP的指数策略的最优性	第73-84页
§4.1.1 模型说明	第73-74页
§4.1.2 单个arm的Gittins指数过程	第74-81页
§4.1.3 变折现率的RAP的最优策略	第81-84页
§4.2 Gittins指数策略的一个注解	第84-90页
§4.2.1 单个arm的Gittins指数过程	第84-89页
§4.2.2 Gittins指数策略	第89-90页
§4.3 本章小结	第90-91页
第五章不完全信息随机调度	第91-105页
§5.1 问题提出	第91-92页
§5.2 模型和预备知识	第92-95页
§5.2.1 模型建立	第92-93页
§5.2.2 预备知识	第93-95页
§5.3 静态策略	第95-96页
§5.4 限制性的动态策略	第96-104页
§5.5 本章小结	第104-105页
结论	第105-106页
参考文献	第106-115页
致谢	第115-116页
在学期间的研究成果及发表的论文	第116页