首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于Q学习算法的非完备信息机器博弈的研究

摘要第4-5页
Abstract第5-6页
第1章 绪论第9-15页
    1.1 课题研究背景和意义第9-11页
        1.1.1 课题研究背景第9-10页
        1.1.2 研究的目的和意义第10-11页
    1.2 国内外相关研究及综述第11-13页
    1.3 主要研究内容及组织结构第13-15页
        1.3.1 主要研究内容第13-14页
        1.3.2 论文的组织结构第14-15页
第2章 博弈理论和强化学习第15-25页
    2.1 博弈分类第15-16页
        2.1.1 范式博弈第15页
        2.1.2 扩展式博弈第15-16页
    2.2 估值函数第16-17页
        2.2.1 静态估值函数第16-17页
        2.2.2 动态估值函数第17页
    2.3 博弈树搜索第17-20页
        2.3.1 博弈树基本搜索算法第17-18页
        2.3.2 Alpha-Beta搜索第18-19页
        2.3.3 历史启发搜索第19-20页
    2.4 非完备信息游戏中的博弈问题第20-21页
    2.5 强化学习第21-24页
        2.5.1 强化学习简介第21-23页
        2.5.2 Q学习算法第23-24页
    2.6 本章小结第24-25页
第3章 基于Q学习的非完备信息博弈第25-42页
    3.1 非完备信息博弈与POMDP模型第25-28页
        3.1.1 POMDP模型第25页
        3.1.2 非完备信息博弈的POMDP表示第25-26页
        3.1.3 Q学习应用在非完备信息博弈中的方案第26-28页
    3.2 Q学习的状态改进模型第28-31页
        3.2.1 非完备信息博弈下的状态问题第28-29页
        3.2.2 基于Pn-step改进的Q学习状态模型第29-31页
    3.3 Q学习的估值函数改进模型第31-36页
        3.3.1 传统的Q值表示第31页
        3.3.2 Fuzzy-Q学习第31-33页
        3.3.3 基于NF改进的Q学习估值函数模型第33-36页
    3.4 Q学习改进的回报函数设计第36-41页
        3.4.1 UCB1策略第36-37页
        3.4.2 基于UCT策略改进的Q学习回报函数第37-41页
    3.5 本章小结第41-42页
第4章 扑克博弈系统的实现和实验分析第42-54页
    4.1 扑克机器博弈系统第42-47页
        4.1.1 数据表示和规则产生器第43-44页
        4.1.2 估值函数设计第44-47页
    4.2 实验结果分析第47-53页
        4.2.1 实验数据第47-48页
        4.2.2 实验参数选取第48-50页
        4.2.3 玩家行为预测第50页
        4.2.4 对局结果分析第50-53页
    4.3 本章小结第53-54页
结论第54-55页
参考文献第55-60页
致谢第60页

论文共60页,点击 下载论文
上一篇:基于中间件技术的水文信息处理系统的开发与应用
下一篇:我国审查起诉中非法证据排除规则的适用