Q-学习在非完备信息机器博弈中的应用

摘要	第1-6页
ABSTRACT	第6-10页
第1章绪论	第10-14页
·课题背景	第10页
·研究的目的和意义	第10-11页
·强化学习的历史和现状	第11-13页
·课题主要研究内容及论文结构	第13-14页
第2章强化学习模型及其主要算法	第14-26页
·强化学习模型	第14-16页
·值函数	第16页
·强化学习的主要算法	第16-24页
·动态规划	第17-18页
·蒙特卡罗算法	第18-19页
·时序差分算法	第19-21页
·Q-学习的发展	第21-24页
·本章小结	第24-26页
第3章基于Q-学习的非完备信息博弈	第26-41页
·非完备信息博弈条件下的Q-学习调整	第26-38页
·Q 值的表示与神经网络	第26-27页
·截断时序差分与Q-学习的结合	第27-35页
·模拟退火与Q-学习	第35-38页
·基于Q-学习的非完备信息博弈	第38-39页
·基于Q-学习的非完备信息博弈	第38-39页
·Q-学习调整过程示例	第39页
·本章小结	第39-41页
第4章非完备信息博弈系统	第41-60页
·非完备信息博弈系统简介	第41-47页
·数据表示	第41-42页
·蒙特卡罗抽样方法	第42-43页
·搜索算法	第43-46页
·估值函数	第46-47页
·实验结果分析	第47-56页
·搜索算法	第47-48页
·估值函数	第48-56页
·棋局库的建立	第56-58页
·开局库的建立	第56-57页
·残局库的建立	第57-58页
·本章小结	第58-60页
结论	第60-61页
参考文献	第61-65页
附录1	第65-67页
攻读硕士学位期间发表的论文	第67-69页
致谢	第69页