基于信度分配的多智能体强化学习研究
| 摘要 | 第1-6页 |
| ABSTRACT | 第6-10页 |
| 第一章 概述 | 第10-27页 |
| ·引言 | 第10页 |
| ·人工智能的发展历史 | 第10-12页 |
| ·多智能体强化学习的研究意义及其系统特点 | 第12-14页 |
| ·研究意义 | 第13-14页 |
| ·系统特点 | 第14页 |
| ·强化学习研究现状 | 第14-19页 |
| ·多智能体学习研究现状 | 第19-24页 |
| ·多智能体学习系统基本概念 | 第19-22页 |
| ·多智能体学习研究内容 | 第22-24页 |
| ·多智能体强化学习研究现状 | 第24-27页 |
| ·多智能体强化学习基础 | 第24-25页 |
| ·多智能体强化学习思想 | 第25-27页 |
| ·本文研究内容与结构安排 | 第27页 |
| ·研究内容 | 第27页 |
| ·结构安排 | 第27页 |
| 第二章 多智能体强化学习方法 | 第27-42页 |
| ·引言 | 第28页 |
| ·强化学习方法研究 | 第28-32页 |
| ·TD 算法 | 第29-30页 |
| ·Dyna 算法 | 第30页 |
| ·Q 学习 | 第30-32页 |
| ·强化学习研究热点问题 | 第32页 |
| ·多智能体学习方法研究 | 第32-35页 |
| ·算法特点 | 第34页 |
| ·异质多智能体系统中结构角色的学习 | 第34页 |
| ·协调学习策略 | 第34-35页 |
| ·多智能体强化学习方法研究 | 第35-41页 |
| ·强化学习的原理 | 第35-36页 |
| ·对策论基础 | 第36-39页 |
| ·多智能体强化学习算法 | 第39-41页 |
| ·本章小结 | 第41-42页 |
| 第三章 基于信度分配的多智能体强化学习 | 第42-58页 |
| ·引言 | 第42页 |
| ·协作型多智能体强化学习 | 第42-45页 |
| ·协作工作基本思想 | 第45-49页 |
| ·强化信号的信度分配 | 第49-51页 |
| ·基于信度分配的多智能体强化学习算法 | 第51-55页 |
| ·算法过程和算法流程图 | 第55-56页 |
| ·本章小结 | 第56-58页 |
| 第四章 实例分析与仿真验证 | 第58-72页 |
| ·实例分析 | 第58-62页 |
| ·追逐对策问题描述 | 第59-60页 |
| ·算法流程 | 第60-62页 |
| ·仿真验证 | 第62-71页 |
| ·设计思想 | 第63-66页 |
| ·实验结果 | 第66-71页 |
| ·本章小结 | 第71-72页 |
| 第五章 总结与展望 | 第72-74页 |
| ·对本文工作的总结 | 第72页 |
| ·对下一步工作的展望 | 第72-74页 |
| 参考文献 | 第74-78页 |
| 附录A(攻读学位期间发表论文目录) | 第78-79页 |
| 附录B(实例化编程源代码) | 第79-88页 |