基于激励学习的中国象棋研究

摘要	第1-6页
Abstract	第6-9页
第1章绪论	第9-14页
·人机博弈的发展现状	第9页
·电脑中国象棋的发展现状	第9-11页
·激励学习在棋类中应用的现状分析	第11页
·本文研究的主要内容及其意义	第11-14页
第2章背景知识	第14-24页
·电脑棋类博弈算法简介	第14-19页
·数据结构	第14-15页
·走法产生	第15-16页
·搜索技术	第16-18页
·估值函数	第18-19页
·学习方法简介	第19-23页
·激励学习（Reinforcement Learning）发展背景	第20页
·基本原理	第20-22页
·主要算法简介	第22页
·瞬时差分（Temporal Difference）算法简介	第22-23页
·本章小结	第23-24页
第3章中国象棋环境设计与实现	第24-30页
·中国象棋的状态表达	第24-26页
·中国象棋的动作表达	第26-28页
·走法产生	第27-28页
·走法存储	第28页
·中国象棋的操作界面	第28-29页
·本章小结	第29-30页
第4 章基于搜索的中国象棋设计与实现	第30-36页
·智能体A 的数据结构	第31-32页
·智能体A 的走法产生	第32页
·智能体A 使用的搜索算法	第32-33页
·智能体A 使用的估值函数	第33-35页
·本章小结	第35-36页
第5章激励学习和神经网络结合的中国象棋设计与实现	第36-43页
·算法原理	第36-37页
·学习体A 的构建	第37-38页
·算法实现	第38-42页
·网络结构设计	第38-39页
·TD 预测网络误差	第39-40页
·误差逆传播学习原理	第40-41页
·TD 学习法具体步骤	第41-42页
·本章小结	第42-43页
第6章激励学习与数据库结合的中国象棋设计与实现	第43-51页
·学习体B 的构建	第43-44页
·算法实现	第44-50页
·分级数据库原理	第44-45页
·分级数据库实现	第45-48页
·学习具体步骤	第48-49页
·使用启发式函数指导学习	第49-50页
·探索与利用	第50页
·本章小结	第50-51页
第7章实验结果	第51-57页
·激励学习算法结合神经网络的结果及比较	第51-53页
·实验结果	第51-53页
·与其它同类程序比较	第53页
·激励学习算法结合数据库的结果及比较	第53-56页
·实验结果	第53-55页
·是否使用启发函数的比较	第55-56页
·本章小结	第56-57页
结论	第57-58页
参考文献	第58-62页
致谢	第62-63页
附录A（攻读学位期间发表的学术论文）	第63-64页
附录B（攻读硕士学位期间参与研究的科研项目）	第64-65页
中文详细摘要	第65-72页