首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

六子棋中基于BP-TD学习的局面估值方法研究

摘要第1-6页
Abstract第6-11页
第1章 绪论第11-17页
   ·研究背景第11-12页
   ·六子棋的研究现状第12-13页
   ·研究意义第13-14页
     ·课题的提出第13-14页
     ·技术路线第14页
     ·研究意义第14页
   ·论文的组织结构第14-17页
第2章 六子棋和TD学习第17-35页
   ·六子棋第17-22页
     ·六子棋简介第17-19页
     ·博弈程序NEU6Star第19-22页
   ·TD(λ)算法第22-27页
     ·增强学习简介第22-25页
     ·评价函数P(s,a)第25-26页
     ·TD(λ)算法第26-27页
   ·估值函数第27-33页
     ·传统的估值函数第27-28页
     ·基于BP神经元网络的估值函数第28-33页
   ·本章小结第33-35页
第3章 TDConn6中估值算法与策略的研究第35-55页
   ·TDCONN6的框架结构第35-37页
   ·TDCONN6的BP-TD(λ)学习算法第37-39页
   ·TDCONN6的BP神经元网络第39-47页
     ·局面特征的抽取第39-44页
     ·BP神经元网络的设计第44-47页
   ·TDCONN6的两阶段着法选择策略第47-54页
     ·随机的着法选择策略第47-48页
     ·最优的着法选择策略第48-49页
     ·两阶段的着法选择策略第49-54页
   ·本章小结第54-55页
第4章 系统实现与试验结果分析第55-71页
   ·开发环境和工具第55页
   ·系统实现第55-61页
     ·TDConn6总体功能的实现第55-56页
     ·TD学习模块的实现第56-57页
     ·着法选择模块的实现第57-58页
     ·自学习训练平台TDvs的实现第58-61页
   ·试验结果分析第61-69页
     ·BP神经元网络的可靠性验证第61-63页
     ·参数λ和α对TDConn6的影响第63-67页
     ·两阶段着法选择策略的性能分析第67-68页
     ·TDConn6的测试集第68-69页
     ·TDConn6与NEUConn6、NEU6Star的性能比较第69页
   ·小结第69-71页
第5章 总结与展望第71-73页
   ·总结第71页
   ·展望第71-73页
参考文献第73-77页
致谢第77-79页
攻读硕士学位期间的科研工作及获奖情况第79页

论文共79页,点击 下载论文
上一篇:钢丝绳捻制过程股绳张力控制系统研究
下一篇:基于IPMC迟滞蠕变特性的自适应逆控制研究