六子棋中基于BP-TD学习的局面估值方法研究

摘要	第1-6页
Abstract	第6-11页
第1章绪论	第11-17页
·研究背景	第11-12页
·六子棋的研究现状	第12-13页
·研究意义	第13-14页
·课题的提出	第13-14页
·技术路线	第14页
·研究意义	第14页
·论文的组织结构	第14-17页
第2章六子棋和TD学习	第17-35页
·六子棋	第17-22页
·六子棋简介	第17-19页
·博弈程序NEU6Star	第19-22页
·TD(λ)算法	第22-27页
·增强学习简介	第22-25页
·评价函数P(s,a)	第25-26页
·TD(λ)算法	第26-27页
·估值函数	第27-33页
·传统的估值函数	第27-28页
·基于BP神经元网络的估值函数	第28-33页
·本章小结	第33-35页
第3章 TDConn6中估值算法与策略的研究	第35-55页
·TDCONN6的框架结构	第35-37页
·TDCONN6的BP-TD(λ)学习算法	第37-39页
·TDCONN6的BP神经元网络	第39-47页
·局面特征的抽取	第39-44页
·BP神经元网络的设计	第44-47页
·TDCONN6的两阶段着法选择策略	第47-54页
·随机的着法选择策略	第47-48页
·最优的着法选择策略	第48-49页
·两阶段的着法选择策略	第49-54页
·本章小结	第54-55页
第4章系统实现与试验结果分析	第55-71页
·开发环境和工具	第55页
·系统实现	第55-61页
·TDConn6总体功能的实现	第55-56页
·TD学习模块的实现	第56-57页
·着法选择模块的实现	第57-58页
·自学习训练平台TDvs的实现	第58-61页
·试验结果分析	第61-69页
·BP神经元网络的可靠性验证	第61-63页
·参数λ和α对TDConn6的影响	第63-67页
·两阶段着法选择策略的性能分析	第67-68页
·TDConn6的测试集	第68-69页
·TDConn6与NEUConn6、NEU6Star的性能比较	第69页
·小结	第69-71页
第5章总结与展望	第71-73页
·总结	第71页
·展望	第71-73页
参考文献	第73-77页
致谢	第77-79页
攻读硕士学位期间的科研工作及获奖情况	第79页