摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 绪论 | 第9-18页 |
·经典 Bandit模型及应用 | 第9-10页 |
·经典 Bandit模型的扩展 | 第10-13页 |
·Bandit模型的计算 | 第13-16页 |
·动态规划 | 第13-14页 |
·特殊策略的最优性 | 第14-15页 |
·Gittins指数策略 | 第15-16页 |
·论文的主要研究内容 | 第16-18页 |
第二章 Bandit过程的预备知识 | 第18-26页 |
·马氏决策过程 | 第18-21页 |
·马氏决策过程的定义和分类 | 第18页 |
·离散时间马氏决策过程和半马氏决策过程 | 第18-21页 |
·Bandit过程和Gittins指数定理 | 第21-24页 |
·Bandit过程和 Bandit过程族 | 第21-23页 |
·Gittins指数定理 | 第23-24页 |
·折扣序列 | 第24-26页 |
第三章 Bandit抽样过程的性质和方法 | 第26-33页 |
·Bandit抽样过程和贝叶斯方法 | 第26-29页 |
·Bandit抽样过程的定义和分类 | 第26页 |
·贝叶斯方法 | 第26-28页 |
·Bandit抽样过程的基本原理 | 第28-29页 |
·几类特殊 Bandit抽样过程的性质 | 第29-31页 |
·Erlang(k) Bandit报酬过程 | 第29-30页 |
·Erlang(2) Bandit目标过程 | 第30页 |
·考虑抽样时间间隔的特殊 Bandit报酬过程 | 第30-31页 |
·报酬过程 Gittins指数的渐进性质 | 第31-33页 |
第四章 Bandit抽样过程的模型和计算 | 第33-48页 |
·校正方法 | 第33-36页 |
·校正方法的基本原理 | 第33-34页 |
·校正方法的简化 | 第34-36页 |
·Erlang(k)Bandit报酬过程的最优决策问题 | 第36-39页 |
·基本模型 | 第36-37页 |
·计算最优平衡值∑_n~((k))的算法 | 第37-38页 |
·Gittins指数和 ∑_n~((k))的渐近性质 | 第38-39页 |
·Erlang(2) Bandit目标过程的最优决策问题 | 第39-42页 |
·基本模型 | 第39-40页 |
·计算最优平衡值 ∑_n的算法 | 第40-42页 |
·考虑抽样时间间隔的特殊 Bandit报酬过程的最优决策问题 | 第42-48页 |
·基本模型 | 第42-43页 |
·Gittins指数的单调性质 | 第43-44页 |
·计算最优停止时间的算法 | 第44-48页 |
结论 | 第48-49页 |
参考文献 | 第49-56页 |
致谢 | 第56-57页 |
攻读学位期间主要的研究成果 | 第57页 |