首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

基于强化学习的多机器人行为式队形控制策略研究

提要第1-8页
第1章 绪论第8-18页
   ·问题的提出与研究意义第8页
   ·相关问题的国内外研究现状第8-11页
     ·多机器人系统第8-10页
     ·多机器人系统相关研究领域第10-11页
   ·本文研究问题的国内外研究现状第11-15页
     ·多机器人队形控制第11-13页
     ·强化学习第13-14页
     ·强化学习在多机器人系统中的应用第14-15页
   ·存在的问题第15-16页
   ·本文的主要内容与结构安排第16-18页
第2章 强化学习理论基础第18-26页
   ·引言第18页
   ·强化学习的基本原理第18-19页
     ·马尔可夫决策过程第18-19页
     ·强化学习基本原理与模型第19页
   ·强化学习的基本组成第19-22页
     ·探索策略第19-20页
     ·奖励函数第20-21页
     ·优化模型第21-22页
   ·强化学习的主要算法第22-24页
     ·蒙特卡罗算法第22-23页
     ·动态规划算法第23页
     ·瞬时差分算法第23-24页
     ·Q 学习第24页
     ·Sarsa 学习算法第24页
   ·本章小结第24-26页
第3章 基于行为法的队形控制策略第26-50页
   ·引言第26-27页
   ·队形控制策略基础第27-32页
     ·领航跟随法第27-28页
     ·虚拟结构法第28-29页
     ·基于行为法第29-32页
   ·基于行为的队形控制算法设计第32-37页
     ·基于行为法中的子行为选取第32-35页
     ·基于行为的队形控制算法实现第35-37页
   ·仿真实验结果与分析第37-49页
     ·仿真环境介绍第37-38页
     ·仿真结果及分析第38-45页
     ·算法存在的问题及解决方法第45-49页
   ·本章小结第49-50页
第4章 基于强化学习的行为式队形控制策略第50-60页
   ·引言第50页
   ·队形控制策略基本思想第50-53页
   ·队形控制策略实现方法第53-55页
     ·状态空间的设置第53页
     ·强化信号的设置第53-54页
     ·探索策略第54页
     ·Q 值更新策略第54-55页
   ·仿真实验结果与分析第55-59页
     ·渐宽通道环境仿真第55-57页
     ·宽窄交替变化通道环境仿真第57-59页
   ·本章小结第59-60页
第5章 全文总结第60-62页
   ·本文完成的主要工作和结论第60页
   ·需要进一步研究的问题第60-62页
参考文献第62-66页
致谢第66-67页
摘要第67-69页
Abstract第69-71页
导师与作者简介第71页

论文共71页,点击 下载论文
上一篇:GPS与GPRS在汽车行驶记录仪中的应用
下一篇:磨矿分级控制系统中的模糊模型研究