基于信度分配的多智能体强化学习研究
摘要 | 第1-6页 |
ABSTRACT | 第6-10页 |
第一章 概述 | 第10-27页 |
·引言 | 第10页 |
·人工智能的发展历史 | 第10-12页 |
·多智能体强化学习的研究意义及其系统特点 | 第12-14页 |
·研究意义 | 第13-14页 |
·系统特点 | 第14页 |
·强化学习研究现状 | 第14-19页 |
·多智能体学习研究现状 | 第19-24页 |
·多智能体学习系统基本概念 | 第19-22页 |
·多智能体学习研究内容 | 第22-24页 |
·多智能体强化学习研究现状 | 第24-27页 |
·多智能体强化学习基础 | 第24-25页 |
·多智能体强化学习思想 | 第25-27页 |
·本文研究内容与结构安排 | 第27页 |
·研究内容 | 第27页 |
·结构安排 | 第27页 |
第二章 多智能体强化学习方法 | 第27-42页 |
·引言 | 第28页 |
·强化学习方法研究 | 第28-32页 |
·TD 算法 | 第29-30页 |
·Dyna 算法 | 第30页 |
·Q 学习 | 第30-32页 |
·强化学习研究热点问题 | 第32页 |
·多智能体学习方法研究 | 第32-35页 |
·算法特点 | 第34页 |
·异质多智能体系统中结构角色的学习 | 第34页 |
·协调学习策略 | 第34-35页 |
·多智能体强化学习方法研究 | 第35-41页 |
·强化学习的原理 | 第35-36页 |
·对策论基础 | 第36-39页 |
·多智能体强化学习算法 | 第39-41页 |
·本章小结 | 第41-42页 |
第三章 基于信度分配的多智能体强化学习 | 第42-58页 |
·引言 | 第42页 |
·协作型多智能体强化学习 | 第42-45页 |
·协作工作基本思想 | 第45-49页 |
·强化信号的信度分配 | 第49-51页 |
·基于信度分配的多智能体强化学习算法 | 第51-55页 |
·算法过程和算法流程图 | 第55-56页 |
·本章小结 | 第56-58页 |
第四章 实例分析与仿真验证 | 第58-72页 |
·实例分析 | 第58-62页 |
·追逐对策问题描述 | 第59-60页 |
·算法流程 | 第60-62页 |
·仿真验证 | 第62-71页 |
·设计思想 | 第63-66页 |
·实验结果 | 第66-71页 |
·本章小结 | 第71-72页 |
第五章 总结与展望 | 第72-74页 |
·对本文工作的总结 | 第72页 |
·对下一步工作的展望 | 第72-74页 |
参考文献 | 第74-78页 |
附录A(攻读学位期间发表论文目录) | 第78-79页 |
附录B(实例化编程源代码) | 第79-88页 |