信息的价值在马尔可夫决策理论下的应用

摘要	第5-6页
abstract	第6-7页
第一章绪论	第11-18页
1.1 研究工作的背景与意义	第11-13页
1.1.1 研究背景	第11-12页
1.1.2 研究意义	第12-13页
1.2 研究现状	第13-16页
1.2.1 马尔可夫决策理论	第13-14页
1.2.2 信息的价值及其计算	第14-16页
1.3 本文的主要工作	第16-17页
1.4 论文结构	第17-18页
第二章研究相关技术基础	第18-35页
2.1 决策问题中的动态决策理论	第18-20页
2.1.1 动态规划理论	第18-19页
2.1.2 马尔可夫过程理论	第19-20页
2.2 马尔可夫决策过程	第20-24页
2.2.1 模型定义	第20-21页
2.2.2 策略及值函数	第21-22页
2.2.3 马尔可夫决策过程求解方法	第22-24页
2.3 部分可观察马尔可夫决策过程	第24-31页
2.3.1 模型定义	第24-25页
2.3.2 策略及求解	第25-28页
2.3.3 在线规划算法	第28-29页
2.3.4 蒙特卡洛方法	第29-31页
2.4 马尔可夫决策理论中的信息的价值	第31-34页
2.4.1 POMDP中的完美信息期望值	第32-34页
2.4.2 VOI顺序规律	第34页
2.5 本章小结	第34-35页
第三章基于信念的价值决策模型及其应用	第35-57页
3.1 Belief-VOI应用分析	第35-36页
3.2 信念状态MDP	第36-39页
3.2.1 不确定性序贯决策问题分析	第36-38页
3.2.2 基于信念状态的建模理论	第38-39页
3.3 基于马尔可夫链的最优停止	第39-41页
3.3.1 最优停止问题分析	第39页
3.3.2 最优解的存在性证明	第39-41页
3.4 Belief-VOI建模	第41-45页
3.4.1 模型定义	第42-43页
3.4.2 模型描述	第43-45页
3.5 Belief-VOI在众包质量控制中的应用	第45-56页
3.5.1 问题描述	第45-49页
3.5.2 模型的创建	第49-56页
3.6 本章小结	第56-57页
第四章一种改进的蒙特卡洛方法计算信息的价值	第57-68页
4.1 求解的复杂度分析	第57-58页
4.2 传统蒙特卡洛方法缺点	第58-61页
4.2.1 UCT方法	第58-60页
4.2.2 蒙特卡洛树搜索	第60-61页
4.3 改进的蒙特卡洛方法计算信息的价值	第61-67页
4.3.1 问题限制	第61-62页
4.3.2 算法描述	第62-66页
4.3.3 一个例子	第66-67页
4.4 本章小结	第67-68页
第五章实验与分析	第68-74页
5.1 实验配置	第68页
5.2 实验准备工作	第68-69页
5.3 实验结果对比与分析	第69-73页
5.3.1 模型的验证	第69-70页
5.3.2 与传统蒙特卡洛方法的对比	第70-72页
5.3.3 BMCT运行性能	第72-73页
5.4 本章小结	第73-74页
第六章总结与展望	第74-76页
6.1 已完成的工作	第74-75页
6.2 下一步研究方向	第75-76页
致谢	第76-77页
参考文献	第77-82页
攻读硕士期间取得的成果	第82页