分布式强化学习理论及在多机器人中的应用研究

第1章绪论	第1-29页
·引言	第11-13页
·强化学习的发展历史和研究现状	第13-17页
·分布式强化学习的研究现状	第17-24页
·中央强化学习	第18页
·独立强化学习	第18-19页
·群体强化学习	第19-21页
·社会强化学习	第21-22页
·分布式强化学习研究中亟待解决的问题	第22-24页
·多机器人学的研究现状	第24-26页
·本文的研究目的和意义	第26页
·本文研究内容和主要贡献	第26-27页
·本文研究内容	第26-27页
·主要贡献	第27页
·本文的组织结构	第27-29页
第2章强化学习理论基础	第29-42页
·引言	第29页
·TD学习算法	第29-34页
·TD学习算法的基本原理	第30-31页
·TD(0)、TD(1)与TD(λ)	第31-34页
·Q学习算法	第34-41页
·Q学习算法的基本原理	第34-35页
·Q学习的算法步骤	第35-37页
·Q学习的动作选择机制	第37-38页
·Q(λ)学习算法	第38-40页
·Q学习的神经网络实现	第40-41页
·本章小结	第41-42页
第3章分布式强化学习系统的体系结构研究	第42-47页
·引言	第42页
·分布式强化学习系统的体系结构框架	第42-46页
·中央强化学习系统	第42-43页
·独立强化学习系统	第43-44页
·群体强化学习系统	第44-46页
·社会强化学习系统	第46页
·本章小结	第46-47页
第4章分布式强化学习系统的结构信度分配研究	第47-71页
·引言	第47-48页
·竞争型独立强化学习系统的结构信度分配方法	第48-50页
·协同型分布式强化学习结构信度分配问题的形式化描述	第50-53页
·结构信度分配问题的基本框架	第50-52页
·T表中行向量及其行号的相互变换	第52页
·T表的排序方法	第52-53页
·协同型分布式强化学习系统的结构信度分配方法	第53-70页
·基本算法	第53-56页
·非合理强化机制下的结构信度分配方法的理论基础	第56-58页
·非合理强化机制下的结构信度分配问题的简化	第58-59页
·非线性规划子问题的求解方法	第59-61页
·仿真实验	第61-66页
·不完整T表的处理	第66-70页
·本章小结	第70-71页
第5章独立强化学习系统研究	第71-88页
·引言	第71页
·独立强化学习系统中的信息共享	第71-79页
·独立强化学习系统中的状态信息共享	第71-75页
·独立强化学习系统中的经验共享	第75-78页
·独立强化学习系统中的策略共享	第78-79页
·独立强化学习系统的状态空间划分	第79-87页
·栅格空间的有色轨道划分方法	第80-84页
·基于状态分量重要性的状态空间划分方法	第84-87页
·本章小结	第87-88页
第6章群体强化学习系统研究	第88-106页
·引言	第88-89页
·群体强化学习方法的理论基础	第89-97页
·群体强化学习方法框架	第89-92页
·群体强化学习基本算法	第92-93页
·群体强化学习算法的收敛性	第93-97页
·采用预测法加快群体强化学习算法的收敛速度	第97-101页
·基本思想	第98-99页
·预测动作以加快群体强化学习算法的收敛速度	第99-100页
·预测状态以加快群体强化学习算法的收敛速度	第100-101页
·仿真实验	第101-105页
·实验场景	第101-103页
·学习系统的状态、动作与强化机制定义	第103-104页
·实验结果	第104-105页
·本章小结	第105-106页
第7章分布式强化学习在多机器人中的应用实例	第106-123页
·引言	第106页
·仿真系统的结构框架	第106-113页
·仿真系统的总体设计	第106-110页
·实验场景	第110-113页
·艏向建议单元的实现方法	第113-114页
·避碰学习单元的实现方法	第114-115页
·状态定义	第114-115页
·动作定义	第115页
·强化信号定义	第115页
·编队学习单元的实现方法	第115-118页
·状态定义	第115-117页
·动作定义	第117页
·强化信号定义	第117-118页
·策略融合单元的实现方法	第118页
·实验结果	第118-122页
·本章小结	第122-123页
结论	第123-125页
参考文献	第125-135页
攻读博士学位期间发表的论文	第135-136页
致谢	第136页