基于强化学习的冰壶比赛策略生成方法研究

摘要	第4-5页
ABSTRACT	第5-6页
第1章绪论	第9-15页
1.1 课题背景	第9-10页
1.2 强化学习研究现状	第10-13页
1.2.1 Q-learning	第10-12页
1.2.2 深度强化学习	第12-13页
1.3 论文内容及组织结构	第13-15页
第2章冰壶对抗仿真平台建设	第15-31页
2.1 引言	第15页
2.2 冰壶对抗仿真平台的规划与设计	第15-16页
2.3 冰壶动力学和运动学模型的实现	第16-19页
2.3.1 冰壶碰撞模型	第16-18页
2.3.2 冰壶数学仿真运算模块	第18-19页
2.4 冰壶对抗仿真平台前端布局	第19-23页
2.4.1 登录与注册模块	第20-21页
2.4.2 冰壶对抗仿真平台主页面	第21-22页
2.4.3 冰壶位置与轨迹的实现	第22-23页
2.5 冰壶对抗仿真平台后台框架	第23-29页
2.5.1 服务器架构	第23-24页
2.5.2 配置文件	第24页
2.5.3 采样点数据存储	第24-26页
2.5.4 登录与注册功能模块	第26-27页
2.5.5 冰壶投掷模块	第27-28页
2.5.6 比赛信息模块	第28-29页
2.6 性能测试	第29-30页
2.7 本章小结	第30-31页
第3章冰壶对抗策略生成算法	第31-39页
3.1 引言	第31页
3.2 基于PSO粒子群算法的策略生成方法	第31-33页
3.2.1 PSO粒子群算法来源与背景	第31-32页
3.2.2 PSO粒子群算法原理	第32-33页
3.3 基于蒙特卡洛方法与监督学习网络结合的策略生成方法	第33-36页
3.3.1 博弈树	第33-34页
3.3.2 极大极小值算法与Alpha-Beta剪枝	第34-36页
3.3.3 蒙特卡洛方法	第36页
3.4 基于深度强化学习算法的策略生成方法	第36-38页
3.5 本章小结	第38-39页
第4章仿真实验及结果分析	第39-46页
4.1 引言	第39页
4.2 PSO粒子群算法仿真实验说明	第39-41页
4.3 蒙特卡洛方法与监督学习网络仿真实验说明	第41-44页
4.4 深度强化学习网络仿真实验说明	第44-45页
4.5 本章小结	第45-46页
结论	第46-47页
参考文献	第47-52页
致谢	第52页