基于强化学习的多机器人围捕策略研究

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-18页
·课题背景及其意义	第10-11页
·多机器人系统概述	第11-13页
·多机器人的发展	第11页
·一些典型的多机器人系统	第11-12页
·多机器人研究的现状及问题	第12-13页
·强化学习发展及现状	第13-15页
·强化学习的发展及现状	第13-14页
·强化学习在多智能体中的发展及应用	第14-15页
·强化学习现状的主要问题	第15页
·多机器人围捕研究现状	第15-17页
·本论文研究的内容及安排	第17-18页
第2章机器人体系结构	第18-28页
·机器人动力学模型	第18-19页
·机器人的硬件结构	第19-23页
·C8051f019单片机	第20-21页
·CRM2400CNC无线通讯模块	第21-22页
·L298电机驱动芯片	第22-23页
·光电编码器	第23页
·软件平台	第23-24页
·直流电机的控制算法	第24-27页
·直流电机速度调节算法	第24-25页
·软件编程	第25-27页
·本章小结	第27-28页
第3章强化学习基本理论及算法	第28-36页
·引言	第28页
·Markov决策过程(MDP)	第28-29页
·强化学习	第29-34页
·强化学习的基本原理	第29-31页
·强化学习的基本方法	第31-34页
·本章小结	第34-36页
第4章多机器人围捕方案的设计	第36-54页
·引言	第36-37页
·多机器人围捕模型	第37-42页
·机器人避障	第37-38页
·围捕任务建模	第38-40页
·逃跑者策略设计	第40-41页
·围捕者策略设计	第41-42页
·状态预测模型	第42-45页
·状态预测的基本原理	第42-44页
·状态预测的方法	第44-45页
·基于状态预测的强化学习设计方案	第45-47页
·基于状态预测的强化学习模型	第45-46页
·改进的Q学习算法	第46-47页
·多机器人围捕算法的实现	第47-50页
·环境状态和机器人行为分析	第47-48页
·奖赏函数的设计	第48-49页
·动作选取	第49页
·围捕策略	第49-50页
·基于状态预测的学习算法描述	第50页
·性能分析	第50-52页
·状态预测减小学习的空间	第50-51页
·改进的Q学习算法提高了学习的收敛速度	第51-52页
·本章小结	第52-54页
第5章算法仿真	第54-62页
·仿真环境	第54页
·参数设置	第54页
·仿真结果	第54-61页
·不存在障碍物	第54-56页
·存在障碍物情况	第56-57页
·机器人出现故障	第57-58页
·围捕机器人临界速度分析	第58-61页
·本章小结	第61-62页
第6章结论与展望	第62-64页
参考文献	第64-68页
致谢	第68页