首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

分布式强化学习理论及在多机器人中的应用研究

第1章 绪论第1-29页
   ·引言第11-13页
   ·强化学习的发展历史和研究现状第13-17页
   ·分布式强化学习的研究现状第17-24页
     ·中央强化学习第18页
     ·独立强化学习第18-19页
     ·群体强化学习第19-21页
     ·社会强化学习第21-22页
     ·分布式强化学习研究中亟待解决的问题第22-24页
   ·多机器人学的研究现状第24-26页
   ·本文的研究目的和意义第26页
   ·本文研究内容和主要贡献第26-27页
     ·本文研究内容第26-27页
     ·主要贡献第27页
   ·本文的组织结构第27-29页
第2章 强化学习理论基础第29-42页
   ·引言第29页
   ·TD学习算法第29-34页
     ·TD学习算法的基本原理第30-31页
     ·TD(0)、TD(1)与TD(λ)第31-34页
   ·Q学习算法第34-41页
     ·Q学习算法的基本原理第34-35页
     ·Q学习的算法步骤第35-37页
     ·Q学习的动作选择机制第37-38页
     ·Q(λ)学习算法第38-40页
     ·Q学习的神经网络实现第40-41页
   ·本章小结第41-42页
第3章 分布式强化学习系统的体系结构研究第42-47页
   ·引言第42页
   ·分布式强化学习系统的体系结构框架第42-46页
     ·中央强化学习系统第42-43页
     ·独立强化学习系统第43-44页
     ·群体强化学习系统第44-46页
     ·社会强化学习系统第46页
   ·本章小结第46-47页
第4章 分布式强化学习系统的结构信度分配研究第47-71页
   ·引言第47-48页
   ·竞争型独立强化学习系统的结构信度分配方法第48-50页
   ·协同型分布式强化学习结构信度分配问题的形式化描述第50-53页
     ·结构信度分配问题的基本框架第50-52页
     ·T表中行向量及其行号的相互变换第52页
     ·T表的排序方法第52-53页
   ·协同型分布式强化学习系统的结构信度分配方法第53-70页
     ·基本算法第53-56页
     ·非合理强化机制下的结构信度分配方法的理论基础第56-58页
     ·非合理强化机制下的结构信度分配问题的简化第58-59页
     ·非线性规划子问题的求解方法第59-61页
     ·仿真实验第61-66页
     ·不完整T表的处理第66-70页
   ·本章小结第70-71页
第5章 独立强化学习系统研究第71-88页
   ·引言第71页
   ·独立强化学习系统中的信息共享第71-79页
     ·独立强化学习系统中的状态信息共享第71-75页
     ·独立强化学习系统中的经验共享第75-78页
     ·独立强化学习系统中的策略共享第78-79页
   ·独立强化学习系统的状态空间划分第79-87页
     ·栅格空间的有色轨道划分方法第80-84页
     ·基于状态分量重要性的状态空间划分方法第84-87页
   ·本章小结第87-88页
第6章 群体强化学习系统研究第88-106页
   ·引言第88-89页
   ·群体强化学习方法的理论基础第89-97页
     ·群体强化学习方法框架第89-92页
     ·群体强化学习基本算法第92-93页
     ·群体强化学习算法的收敛性第93-97页
   ·采用预测法加快群体强化学习算法的收敛速度第97-101页
     ·基本思想第98-99页
     ·预测动作以加快群体强化学习算法的收敛速度第99-100页
     ·预测状态以加快群体强化学习算法的收敛速度第100-101页
   ·仿真实验第101-105页
     ·实验场景第101-103页
     ·学习系统的状态、动作与强化机制定义第103-104页
     ·实验结果第104-105页
   ·本章小结第105-106页
第7章 分布式强化学习在多机器人中的应用实例第106-123页
   ·引言第106页
   ·仿真系统的结构框架第106-113页
     ·仿真系统的总体设计第106-110页
     ·实验场景第110-113页
   ·艏向建议单元的实现方法第113-114页
   ·避碰学习单元的实现方法第114-115页
     ·状态定义第114-115页
     ·动作定义第115页
     ·强化信号定义第115页
   ·编队学习单元的实现方法第115-118页
     ·状态定义第115-117页
     ·动作定义第117页
     ·强化信号定义第117-118页
   ·策略融合单元的实现方法第118页
   ·实验结果第118-122页
   ·本章小结第122-123页
结论第123-125页
参考文献第125-135页
攻读博士学位期间发表的论文第135-136页
致谢第136页

论文共136页,点击 下载论文
上一篇:心电数据检测与处理系统的分析与设计
下一篇:我国义务教育财政体制改革的理论与实践问题研究