首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于一致性与事件驱动的强化学习研究

摘要第5-6页
Abstract第6-7页
主要符号对照表第11-12页
第1章 绪论第12-18页
    1.1 课题的背景及意义第12-13页
    1.2 多智能体的协调与协作第13-14页
    1.3 不确定环境下的多智能体系统第14-15页
    1.4 强化学习的策略空间与收敛速度第15页
    1.5 论文的主要研究内容及章节安排第15-18页
第2章 多智能体协作与学习模型第18-39页
    2.1 引言第18页
    2.2 强化学习原理第18-26页
        2.2.1 MonteCarlo算法第20-21页
        2.2.2 瞬时差分法第21-22页
        2.2.3 Q-学习第22-24页
        2.2.4 Sarsa算法第24-25页
        2.2.5 Actor-Critic学习算法第25页
        2.2.6 R-学习算法第25-26页
    2.3 分布式强化学习原理第26-29页
        2.3.1 分布式强化学习模型第26-28页
        2.3.2 研究现况及存在的问题第28-29页
    2.4 分布式马尔科夫决策模型第29-34页
        2.4.1 分布式马尔科夫模型第29页
        2.4.2 局部可观测的马尔科夫模型第29-30页
        2.4.3 分布式局部可观测的马尔科夫模型第30-32页
        2.4.4 研究现状与存在的问题第32-34页
    2.5 多智能体一致性原理第34-35页
        2.5.1 图论第34页
        2.5.2 Gossip一致性算法第34-35页
        2.5.3 离散一致性算法第35页
    2.6 启发式强化学习原理第35-38页
        2.6.1 盲目搜索与启发式搜索第36-37页
        2.6.2 启发式强化学习第37-38页
    2.7 本章小结第38-39页
第3章 基于一致性的多智能体强化学习研究第39-57页
    3.1 引言第39页
    3.2 基于一致性的DEC-POMDP强化学习框架第39-43页
        3.2.1 强化学习中的局部观测性和不确定性分析第39-40页
        3.2.2 分布式多智能体强化学习模型设计第40-42页
        3.2.3 多智能体强化学习一致性方案设计第42-43页
    3.3 基于一致性的多智能体强化学习算法第43-48页
        3.3.1 基于一致性的多智能体强化学习算法设计第43-47页
        3.3.2 基于一致性的策略化简设计第47-48页
    3.4 收敛性分析第48-49页
    3.5 仿真实验第49-56页
    3.6 本章小结第56-57页
第4章 基于事件驱动的多智能体强化学习研究第57-75页
    4.1 引言第57页
    4.2 事件驱动原理第57-60页
    4.3 强化学习的事件驱动模型与触发规则设计第60-64页
        4.3.1 基于事件驱动的强化学习模型设计第60-62页
        4.3.2 触发规则设计第62-64页
    4.4 基于事件驱动的强化学习第64-68页
        4.4.1 基于事件驱动的强化学习算法设计第64-66页
        4.4.2 计算资源消耗分析第66页
        4.4.3 算法收敛性分析第66-68页
    4.5 仿真实验第68-74页
    4.6 本章小结第74-75页
第5章 基于事件驱动的启发式强化学习研究第75-109页
    5.1 引言第75页
    5.2 启发式加速强化学习方法第75-80页
        5.2.1 启发式加速Q-学习第76-77页
        5.2.2 基于状态回溯代价分析启发式Q-学习第77-78页
        5.2.3 基于CaseBasedReasoning的启发式加速Q-学习第78-80页
    5.3 基于事件驱动的启发式Q-学习设计第80-108页
        5.3.1 基于事件驱动的HAQL算法第81-90页
            5.3.1.1 触发函数设计第81-82页
            5.3.1.2 算法设计第82-86页
            5.3.1.3 仿真实验第86-90页
        5.3.2 基于事件驱动的HASB-QL算法第90-99页
            5.3.2.1 触发函数设计第90-91页
            5.3.2.2 算法设计第91-93页
            5.3.2.3 启发式函数分析第93-95页
            5.3.2.4 仿真实验第95-99页
        5.3.3 基于事件驱动的CB-HAQL算法第99-108页
            5.3.3.1 触发函数设计第99-100页
            5.3.3.2 案例设计第100页
            5.3.3.3 算法设计第100-102页
            5.3.3.4 仿真实验第102-108页
    5.4 本章小结第108-109页
结论第109-111页
致谢第111-112页
参考文献第112-123页
攻读博士学位期间发表的论文及科研成果第123-125页

论文共125页,点击 下载论文
上一篇:大规模知识图谱服务的系统与应用研究
下一篇:无线传感器网络入侵检测关键技术研究