基于智能体的多机器人系统学习方法研究
摘要 | 第4-6页 |
Abstract | 第6-7页 |
第1章 绪论 | 第15-35页 |
1.1 课题研究背景及意义 | 第15-17页 |
1.2 智能体及多智能体系统理论 | 第17-19页 |
1.3 多机器人系统研究内容综述 | 第19-25页 |
1.3.1 多机器人系统的主要研究内容 | 第19-22页 |
1.3.2 多机器人系统的国内外研究现状 | 第22-24页 |
1.3.3 多机器人系统的应用平台 | 第24-25页 |
1.4 机器学习方法 | 第25-32页 |
1.4.1 机器学习的发展历史和分类 | 第25-30页 |
1.4.2 机器学习在多机器人系统中的应用现状 | 第30-32页 |
1.5 本文的主要研究思路和内容安排 | 第32-35页 |
1.5.1 研究思路 | 第32-33页 |
1.5.2 本文的内容安排 | 第33-35页 |
第2章 基于行为的多机器人编队和足球系统 | 第35-57页 |
2.1 引言 | 第35页 |
2.2 机器人体系结构 | 第35-41页 |
2.2.1 单机器人体系结构 | 第35-38页 |
2.2.2 多机器人体系结构 | 第38-41页 |
2.3 基于行为的多机器人编队系统 | 第41-47页 |
2.3.1 多机器人编队控制方法 | 第41-42页 |
2.3.2 基于行为的机器人编队行为设计 | 第42-47页 |
2.4 基于行为的机器人足球 | 第47-52页 |
2.5 机器人仿真环境 | 第52-56页 |
2.6 本章小结 | 第56-57页 |
第3章 融合PSO和CBR的行为参数优化方法 | 第57-81页 |
3.1 引言 | 第57页 |
3.2 粒子群优化算法 | 第57-63页 |
3.2.1 PSO算法流程及收敛性分析 | 第58-61页 |
3.2.2 PSO算法与GA算法比较及发展趋势 | 第61-63页 |
3.3 基于案例的推理方法 | 第63-69页 |
3.3.1 CBR的起源及研究现状 | 第63-64页 |
3.3.2 CBR的基本原理及发展趋势 | 第64-69页 |
3.4 融合PSO与CBR的混合系统 | 第69-76页 |
3.4.1 融合PSO的CBR流程 | 第72-74页 |
3.4.2 基于CBR的PSO算法 | 第74-76页 |
3.5 仿真实验 | 第76-80页 |
3.6 本章小结 | 第80-81页 |
第4章 基于经验共享和滤波技术的改进Q-学习算法 | 第81-106页 |
4.1 引言 | 第81页 |
4.2 强化学习原理及Q-学习算法 | 第81-92页 |
4.3 采用经验共享的Q-学习 | 第92-96页 |
4.4 利用卡尔曼滤波解决结构信度分配问题 | 第96-100页 |
4.4.1 卡尔曼滤波算法 | 第96-98页 |
4.4.2 对整体回报信号进行估计 | 第98-100页 |
4.5 仿真实验 | 第100-105页 |
4.6 本章小结 | 第105-106页 |
第5章 基于无悔策略的多智能体强化学习算法 | 第106-129页 |
5.1 引言 | 第106页 |
5.2 马尔可夫对策的解概念及均衡的分类 | 第106-111页 |
5.3 多智能体强化学习分类 | 第111-118页 |
5.4 基于无悔理论的学习方法 | 第118-121页 |
5.4.1 后悔与决策的关系 | 第118页 |
5.4.2 基于减少后悔值的无悔学习方法 | 第118-121页 |
5.5 基于减少平均后悔值的CE-Q学习算法 | 第121-124页 |
5.6 仿真实验 | 第124-128页 |
5.7 本章小结 | 第128-129页 |
结论 | 第129-131页 |
参考文献 | 第131-142页 |
攻读学位期间发表的学术论文 | 第142-145页 |
致谢 | 第145-146页 |
个人简历 | 第146页 |