基于一致性与事件驱动的强化学习研究

摘要	第5-6页
Abstract	第6-7页
主要符号对照表	第11-12页
第1章绪论	第12-18页
1.1 课题的背景及意义	第12-13页
1.2 多智能体的协调与协作	第13-14页
1.3 不确定环境下的多智能体系统	第14-15页
1.4 强化学习的策略空间与收敛速度	第15页
1.5 论文的主要研究内容及章节安排	第15-18页
第2章多智能体协作与学习模型	第18-39页
2.1 引言	第18页
2.2 强化学习原理	第18-26页
2.2.1 MonteCarlo算法	第20-21页
2.2.2 瞬时差分法	第21-22页
2.2.3 Q-学习	第22-24页
2.2.4 Sarsa算法	第24-25页
2.2.5 Actor-Critic学习算法	第25页
2.2.6 R-学习算法	第25-26页
2.3 分布式强化学习原理	第26-29页
2.3.1 分布式强化学习模型	第26-28页
2.3.2 研究现况及存在的问题	第28-29页
2.4 分布式马尔科夫决策模型	第29-34页
2.4.1 分布式马尔科夫模型	第29页
2.4.2 局部可观测的马尔科夫模型	第29-30页
2.4.3 分布式局部可观测的马尔科夫模型	第30-32页
2.4.4 研究现状与存在的问题	第32-34页
2.5 多智能体一致性原理	第34-35页
2.5.1 图论	第34页
2.5.2 Gossip一致性算法	第34-35页
2.5.3 离散一致性算法	第35页
2.6 启发式强化学习原理	第35-38页
2.6.1 盲目搜索与启发式搜索	第36-37页
2.6.2 启发式强化学习	第37-38页
2.7 本章小结	第38-39页
第3章基于一致性的多智能体强化学习研究	第39-57页
3.1 引言	第39页
3.2 基于一致性的DEC-POMDP强化学习框架	第39-43页
3.2.1 强化学习中的局部观测性和不确定性分析	第39-40页
3.2.2 分布式多智能体强化学习模型设计	第40-42页
3.2.3 多智能体强化学习一致性方案设计	第42-43页
3.3 基于一致性的多智能体强化学习算法	第43-48页
3.3.1 基于一致性的多智能体强化学习算法设计	第43-47页
3.3.2 基于一致性的策略化简设计	第47-48页
3.4 收敛性分析	第48-49页
3.5 仿真实验	第49-56页
3.6 本章小结	第56-57页
第4章基于事件驱动的多智能体强化学习研究	第57-75页
4.1 引言	第57页
4.2 事件驱动原理	第57-60页
4.3 强化学习的事件驱动模型与触发规则设计	第60-64页
4.3.1 基于事件驱动的强化学习模型设计	第60-62页
4.3.2 触发规则设计	第62-64页
4.4 基于事件驱动的强化学习	第64-68页
4.4.1 基于事件驱动的强化学习算法设计	第64-66页
4.4.2 计算资源消耗分析	第66页
4.4.3 算法收敛性分析	第66-68页
4.5 仿真实验	第68-74页
4.6 本章小结	第74-75页
第5章基于事件驱动的启发式强化学习研究	第75-109页
5.1 引言	第75页
5.2 启发式加速强化学习方法	第75-80页
5.2.1 启发式加速Q-学习	第76-77页
5.2.2 基于状态回溯代价分析启发式Q-学习	第77-78页
5.2.3 基于CaseBasedReasoning的启发式加速Q-学习	第78-80页
5.3 基于事件驱动的启发式Q-学习设计	第80-108页
5.3.1 基于事件驱动的HAQL算法	第81-90页
5.3.1.1 触发函数设计	第81-82页
5.3.1.2 算法设计	第82-86页
5.3.1.3 仿真实验	第86-90页
5.3.2 基于事件驱动的HASB-QL算法	第90-99页
5.3.2.1 触发函数设计	第90-91页
5.3.2.2 算法设计	第91-93页
5.3.2.3 启发式函数分析	第93-95页
5.3.2.4 仿真实验	第95-99页
5.3.3 基于事件驱动的CB-HAQL算法	第99-108页
5.3.3.1 触发函数设计	第99-100页
5.3.3.2 案例设计	第100页
5.3.3.3 算法设计	第100-102页
5.3.3.4 仿真实验	第102-108页
5.4 本章小结	第108-109页
结论	第109-111页
致谢	第111-112页
参考文献	第112-123页
攻读博士学位期间发表的论文及科研成果	第123-125页