基于深度学习和蒙特卡洛树搜索的围棋博弈研究
摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第1章 绪论 | 第8-14页 |
1.1 课题背景及意义 | 第8-10页 |
1.1.1 课题研究背景 | 第8-9页 |
1.1.2 研究的目的和意义 | 第9-10页 |
1.2 围棋机器博弈国内外研究现状 | 第10-12页 |
1.3 主要研究内容和组织结构 | 第12-14页 |
1.3.1 主要研究内容 | 第12页 |
1.3.2 论文的组织结构 | 第12-14页 |
第2章 完备信息博弈 | 第14-20页 |
2.1 引言 | 第14页 |
2.2 完备信息博弈以及围棋简介 | 第14-17页 |
2.2.1 围棋博弈规则 | 第14-15页 |
2.2.2 围棋博弈复杂度 | 第15-16页 |
2.2.3 围棋博弈树 | 第16-17页 |
2.2.4 围棋棋谱格式 | 第17页 |
2.3 传统计算机围棋博弈方法 | 第17-19页 |
2.3.1 搜索策略 | 第17-18页 |
2.3.2 评估策略 | 第18-19页 |
2.4 本章小结 | 第19-20页 |
第3章 基于深度学习的蒙特卡洛树搜索 | 第20-41页 |
3.1 引言 | 第20页 |
3.2 基于UCB的蒙特卡洛树搜索 | 第20-25页 |
3.2.1 蒙特卡洛树搜索 | 第20-22页 |
3.2.2 UCT算法 | 第22-25页 |
3.3 基于深度强化学习的围棋博弈 | 第25-34页 |
3.3.1 深度学习在围棋博弈中的应用 | 第25-27页 |
3.3.2 强化学习 | 第27-31页 |
3.3.3 深度强化学习在围棋博弈中的应用 | 第31-34页 |
3.4 深度学习与蒙特卡洛树搜索结合 | 第34-35页 |
3.5 快速走子网络 | 第35-40页 |
3.5.1 基于模式的快速走子方法 | 第36-38页 |
3.5.2 快速走子策略网络 | 第38-40页 |
3.6 本章小结 | 第40-41页 |
第4章 系统设计与实现 | 第41-52页 |
4.1 引言 | 第41页 |
4.2 围棋博弈系统设计与实现 | 第41-49页 |
4.2.1 围棋博弈系统框架 | 第41-42页 |
4.2.2 数据预处理 | 第42-44页 |
4.2.3 策略网络实现 | 第44-46页 |
4.2.4 蒙特卡洛树搜索算法实现 | 第46-47页 |
4.2.5 复盘程序的实现 | 第47-49页 |
4.3 实验结果与分析 | 第49-51页 |
4.3.1 策略网络的结果与分析 | 第49-50页 |
4.3.2 蒙特卡洛树搜索的结果与分析 | 第50-51页 |
4.4 本章小结 | 第51-52页 |
结论 | 第52-53页 |
参考文献 | 第53-56页 |
附录1 特征提取示例及对局示例图 | 第56-64页 |
致谢 | 第64页 |