首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

基于强化学习的多机器人围捕策略研究

摘要第1-6页
Abstract第6-10页
第1章 绪论第10-18页
   ·课题背景及其意义第10-11页
   ·多机器人系统概述第11-13页
     ·多机器人的发展第11页
     ·一些典型的多机器人系统第11-12页
     ·多机器人研究的现状及问题第12-13页
   ·强化学习发展及现状第13-15页
     ·强化学习的发展及现状第13-14页
     ·强化学习在多智能体中的发展及应用第14-15页
     ·强化学习现状的主要问题第15页
   ·多机器人围捕研究现状第15-17页
   ·本论文研究的内容及安排第17-18页
第2章 机器人体系结构第18-28页
   ·机器人动力学模型第18-19页
   ·机器人的硬件结构第19-23页
     ·C8051f019单片机第20-21页
     ·CRM2400CNC无线通讯模块第21-22页
     ·L298电机驱动芯片第22-23页
     ·光电编码器第23页
   ·软件平台第23-24页
   ·直流电机的控制算法第24-27页
     ·直流电机速度调节算法第24-25页
     ·软件编程第25-27页
   ·本章小结第27-28页
第3章 强化学习基本理论及算法第28-36页
   ·引言第28页
   ·Markov决策过程(MDP)第28-29页
   ·强化学习第29-34页
     ·强化学习的基本原理第29-31页
     ·强化学习的基本方法第31-34页
   ·本章小结第34-36页
第4章 多机器人围捕方案的设计第36-54页
   ·引言第36-37页
   ·多机器人围捕模型第37-42页
     ·机器人避障第37-38页
     ·围捕任务建模第38-40页
     ·逃跑者策略设计第40-41页
     ·围捕者策略设计第41-42页
   ·状态预测模型第42-45页
     ·状态预测的基本原理第42-44页
     ·状态预测的方法第44-45页
   ·基于状态预测的强化学习设计方案第45-47页
     ·基于状态预测的强化学习模型第45-46页
     ·改进的Q学习算法第46-47页
   ·多机器人围捕算法的实现第47-50页
     ·环境状态和机器人行为分析第47-48页
     ·奖赏函数的设计第48-49页
     ·动作选取第49页
     ·围捕策略第49-50页
     ·基于状态预测的学习算法描述第50页
   ·性能分析第50-52页
     ·状态预测减小学习的空间第50-51页
     ·改进的Q学习算法提高了学习的收敛速度第51-52页
   ·本章小结第52-54页
第5章 算法仿真第54-62页
   ·仿真环境第54页
   ·参数设置第54页
   ·仿真结果第54-61页
     ·不存在障碍物第54-56页
     ·存在障碍物情况第56-57页
     ·机器人出现故障第57-58页
     ·围捕机器人临界速度分析第58-61页
   ·本章小结第61-62页
第6章 结论与展望第62-64页
参考文献第64-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:矿浆预热过程计算机控制系统的设计与开发
下一篇:基于模糊神经网络的移动机器人避障研究