摘要 | 第11-13页 |
ABSTRACT(英文摘要) | 第13-14页 |
主要符号对照表 | 第16-17页 |
第一章 引言 | 第17-23页 |
§1.1 Multi-armed bandits问题简介 | 第17-20页 |
§1.1.1 为什么研究Multi-armed bandits? | 第17-18页 |
§1.1.2 研究现状与发展趋势 | 第18-20页 |
§1.2 本文的主要工作 | 第20-21页 |
§1.3 基础知识 | 第21-23页 |
第二章 带限制的最优停时问题 | 第23-47页 |
§2.1 模型和性质 | 第24-29页 |
§2.1.1 最优停时问题模型 | 第24-26页 |
§2.1.2 两价值函数的性质和最优停时 | 第26-29页 |
§2.2 最优停时 | 第29-35页 |
§2.2.1 最小的最优停时 | 第29-33页 |
§2.2.2 最大最优停时 | 第33-35页 |
§2.3 其他特征 | 第35-39页 |
§2.3.1 局部化的价值函数和价值与报酬相等情形 | 第35-36页 |
§2.3.2 价值函数另外的正则性特征 | 第36-39页 |
§2.3.3 价值函数的汇聚 | 第39页 |
§2.4 最优双停时问题 | 第39-43页 |
§2.5 可及集的可列停时分解性质 | 第43-45页 |
§2.5.1 有关概念和性质 | 第43-44页 |
§2.5.2 主要结论 | 第44-45页 |
§2.6 本章小结 | 第45-47页 |
第三章 带切换限制的MAB | 第47-73页 |
§3.1 问题的提出 | 第47-49页 |
§3.2 随机时间集上的最优停时问题 | 第49-55页 |
§3.2.1 模型与问题背景 | 第49-51页 |
§3.2.2 最优停时的求解 | 第51-55页 |
§3.3 带切换限制的MAB | 第55-70页 |
§3.3.1 模型说明 | 第56-57页 |
§3.3.2 单个arm的Gittins指标过程 | 第57-65页 |
§3.3.3 具有限制性的Multi-armed bandit最优调度问题 | 第65-70页 |
§3.4 偏序集上带限制的最优停时问题 | 第70-72页 |
§3.5 本章小结 | 第72-73页 |
第四章 变折现率的RAP | 第73-91页 |
§4.1 变折现率的RAP的指数策略的最优性 | 第73-84页 |
§4.1.1 模型说明 | 第73-74页 |
§4.1.2 单个arm的Gittins指数过程 | 第74-81页 |
§4.1.3 变折现率的RAP的最优策略 | 第81-84页 |
§4.2 Gittins指数策略的一个注解 | 第84-90页 |
§4.2.1 单个arm的Gittins指数过程 | 第84-89页 |
§4.2.2 Gittins指数策略 | 第89-90页 |
§4.3 本章小结 | 第90-91页 |
第五章 不完全信息随机调度 | 第91-105页 |
§5.1 问题提出 | 第91-92页 |
§5.2 模型和预备知识 | 第92-95页 |
§5.2.1 模型建立 | 第92-93页 |
§5.2.2 预备知识 | 第93-95页 |
§5.3 静态策略 | 第95-96页 |
§5.4 限制性的动态策略 | 第96-104页 |
§5.5 本章小结 | 第104-105页 |
结论 | 第105-106页 |
参考文献 | 第106-115页 |
致谢 | 第115-116页 |
在学期间的研究成果及发表的论文 | 第116页 |