首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

Q-学习在非完备信息机器博弈中的应用

摘要第1-6页
ABSTRACT第6-10页
第1章 绪论第10-14页
   ·课题背景第10页
   ·研究的目的和意义第10-11页
   ·强化学习的历史和现状第11-13页
   ·课题主要研究内容及论文结构第13-14页
第2章 强化学习模型及其主要算法第14-26页
   ·强化学习模型第14-16页
   ·值函数第16页
   ·强化学习的主要算法第16-24页
     ·动态规划第17-18页
     ·蒙特卡罗算法第18-19页
     ·时序差分算法第19-21页
     ·Q-学习的发展第21-24页
   ·本章小结第24-26页
第3章 基于Q-学习的非完备信息博弈第26-41页
   ·非完备信息博弈条件下的Q-学习调整第26-38页
     ·Q 值的表示与神经网络第26-27页
     ·截断时序差分与Q-学习的结合第27-35页
     ·模拟退火与Q-学习第35-38页
   ·基于Q-学习的非完备信息博弈第38-39页
     ·基于Q-学习的非完备信息博弈第38-39页
     ·Q-学习调整过程示例第39页
   ·本章小结第39-41页
第4章 非完备信息博弈系统第41-60页
   ·非完备信息博弈系统简介第41-47页
     ·数据表示第41-42页
     ·蒙特卡罗抽样方法第42-43页
     ·搜索算法第43-46页
     ·估值函数第46-47页
   ·实验结果分析第47-56页
     ·搜索算法第47-48页
     ·估值函数第48-56页
   ·棋局库的建立第56-58页
     ·开局库的建立第56-57页
     ·残局库的建立第57-58页
   ·本章小结第58-60页
结论第60-61页
参考文献第61-65页
附录1第65-67页
攻读硕士学位期间发表的论文第67-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:无线传感器网络数据融合技术研究
下一篇:高维局部共表达模式挖掘算法的研究