首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

非完备信息机器博弈中风险及对手模型的研究

摘要第4-6页
ABSTRACT第6-7页
第1章 绪论第14-28页
    1.1 人工智能和机器博弈第14-20页
        1.1.1 研究背景第14-15页
        1.1.2 国内外研究现状第15-19页
        1.1.3 非完备信息机器博弈第19-20页
    1.2 机器博弈的理论来源第20-23页
        1.2.1 信息集第20-21页
        1.2.2 纳什均衡第21-23页
    1.3 课题研究的关键问题与创新点第23-26页
    1.4 论文结构第26-28页
第2章 基于改进的UCT策略的蒙特卡洛博弈树搜索第28-51页
    2.1 博弈树搜索第28-30页
        2.1.1 基本搜索算法第28-29页
        2.1.2 Alpha-Beta搜索第29-30页
        2.1.3 历史启发算法第30页
    2.2 非完备信息条件下的蒙特卡洛抽样算法第30-36页
        2.2.1 蒙特卡洛抽样第31-34页
        2.2.2 蒙特卡洛抽样在非完备信息博弈中的应用过程第34-35页
        2.2.3 最佳走步链表的建立与查询第35-36页
    2.3 蒙特卡洛博弈树搜索第36-41页
        2.3.1 MCTS算法过程第37-38页
        2.3.2 MCTS算法与经典博弈树搜索算法的比较第38-41页
    2.4 MCTS算法过程中的节点扩展选择算法UCT第41-45页
        2.4.1 K臂赌博机问题和UCB1算法第41-42页
        2.4.2 博弈树节点扩展选择策略UCT第42-44页
        2.4.3 UCT算法中的上限置信区间第44-45页
    2.5 UCT算法策略比对及参数调整第45-47页
    2.6 UCT策略性能对比实验第47-49页
    2.7 本章小结第49-51页
第3章 非完备信息条件下的风险建模第51-81页
    3.1 机器博弈问题中的风险损失及计算方法第51-63页
        3.1.1 研究背景第51-53页
        3.1.2 机器博弈问题中的风险分析第53-55页
        3.1.3 风险损失出现概率第55-57页
        3.1.4 非完备信息条件下风险损失估算方法第57-58页
        3.1.5 实验分析第58-63页
    3.2 基于风险损失估算方法的UCT-Risk策略第63-66页
    3.3 基于风险占优策略的机器博弈决策模型第66-79页
        3.3.1 理论背景第67-68页
        3.3.2 风险占优决策模型第68-72页
        3.3.3 基于对手建模方法改进的非完备信息预测第72-77页
        3.3.4 实验分析第77-79页
    3.4 本章小结第79-81页
第4章 对手建模中的棋盘类问题建模及对手聚类第81-108页
    4.1 研究背景第81-83页
    4.2 棋盘类博弈问题中的对手建模第83-92页
        4.2.1 棋盘类博弈问题的位置相关性质第83-84页
        4.2.2 棋盘类游戏布局估值方法第84-87页
        4.2.3 对手分类实验和特殊对手建模方法第87-88页
        4.2.4 对手类型预测方法第88-90页
        4.2.5 实验分析第90-92页
    4.3 基于KL距离的群组对手聚类方法第92-104页
        4.3.1 Kullback-Leibler(KL)距离第93-95页
        4.3.2 改进的群组对手分类方法第95-99页
        4.3.3 实验分析第99-104页
    4.4 世界扑克机器博弈大赛(ACPC)评测第104-107页
        4.4.1 ACPC大赛简介第104-105页
        4.4.2 HIT S Z?CS系统参赛情况介绍第105-107页
    4.5 本章小结第107-108页
第5章 机器博弈系统的信息获取学习及性能评估第108-122页
    5.1 机器博弈系统大规模图灵测试平台第108-113页
        5.1.1 测试平台的研究意义第108-109页
        5.1.2 机器博弈系统性能评估方法第109-111页
        5.1.3 基于互联网的博弈信息获取技术第111-113页
    5.2 基于强化学习方法的机器博弈系统信息学习第113-121页
        5.2.1 强化学习方法简介第113-115页
        5.2.2 强化学习中的Q学习算法第115页
        5.2.3 非完备信息条件下的Q学习调整第115-119页
        5.2.4 基于Q学习的四国军棋估值函数调整实验第119-121页
    5.3 本章小结第121-122页
结论第122-124页
参考文献第124-134页
附录A 四国军棋和德州扑克简介第134-141页
    A.1 四国军棋和德州扑克第134-141页
        A.1.1 四国军棋简介第134-137页
        A.1.2 德州扑克简介第137-141页
攻读博士学位期间发表的论文及其他成果第141-144页
致谢第144-146页
个人简历第146页

论文共146页,点击 下载论文
上一篇:基于扰动的双渠道供应链应急决策与协调研究
下一篇:网络流量分类识别若干技术研究