Erlang(k) Bandit抽样过程

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-18页
·经典 Bandit模型及应用	第9-10页
·经典 Bandit模型的扩展	第10-13页
·Bandit模型的计算	第13-16页
·动态规划	第13-14页
·特殊策略的最优性	第14-15页
·Gittins指数策略	第15-16页
·论文的主要研究内容	第16-18页
第二章 Bandit过程的预备知识	第18-26页
·马氏决策过程	第18-21页
·马氏决策过程的定义和分类	第18页
·离散时间马氏决策过程和半马氏决策过程	第18-21页
·Bandit过程和Gittins指数定理	第21-24页
·Bandit过程和 Bandit过程族	第21-23页
·Gittins指数定理	第23-24页
·折扣序列	第24-26页
第三章 Bandit抽样过程的性质和方法	第26-33页
·Bandit抽样过程和贝叶斯方法	第26-29页
·Bandit抽样过程的定义和分类	第26页
·贝叶斯方法	第26-28页
·Bandit抽样过程的基本原理	第28-29页
·几类特殊 Bandit抽样过程的性质	第29-31页
·Erlang(k) Bandit报酬过程	第29-30页
·Erlang(2) Bandit目标过程	第30页
·考虑抽样时间间隔的特殊 Bandit报酬过程	第30-31页
·报酬过程 Gittins指数的渐进性质	第31-33页
第四章 Bandit抽样过程的模型和计算	第33-48页
·校正方法	第33-36页
·校正方法的基本原理	第33-34页
·校正方法的简化	第34-36页
·Erlang(k)Bandit报酬过程的最优决策问题	第36-39页
·基本模型	第36-37页
·计算最优平衡值∑_n~((k))的算法	第37-38页
·Gittins指数和 ∑_n~((k))的渐近性质	第38-39页
·Erlang(2) Bandit目标过程的最优决策问题	第39-42页
·基本模型	第39-40页
·计算最优平衡值 ∑_n的算法	第40-42页
·考虑抽样时间间隔的特殊 Bandit报酬过程的最优决策问题	第42-48页
·基本模型	第42-43页
·Gittins指数的单调性质	第43-44页
·计算最优停止时间的算法	第44-48页
结论	第48-49页
参考文献	第49-56页
致谢	第56-57页
攻读学位期间主要的研究成果	第57页