基于强化学习的AUV避障研究
摘要 | 第4-5页 |
Abstract | 第5-6页 |
第一章 绪论 | 第11-19页 |
1.1 研究背景 | 第11-13页 |
1.2 国内外研究现状和发展趋势 | 第13-14页 |
1.3 AUV避障方法概述 | 第14-15页 |
1.3.1 人工势场法 | 第14页 |
1.3.2 人工智能法 | 第14-15页 |
1.3.3 强化学习法 | 第15页 |
1.4 强化学习法研究现状 | 第15-16页 |
1.5 论文主要研究内容 | 第16-19页 |
第二章 强化学习算法研究 | 第19-31页 |
2.1 引言 | 第19-20页 |
2.2 强化学习模型 | 第20-22页 |
2.2.1 强化学习模型 | 第20-21页 |
2.2.2 强化学习基本要素 | 第21-22页 |
2.3 马尔科夫决策过程 | 第22-25页 |
2.3.1 马尔科夫决策过程 | 第22-23页 |
2.3.2 策略和值函数 | 第23-25页 |
2.4 强化学习主要问题 | 第25页 |
2.4.1 在线学习和离线学习 | 第25页 |
2.4.2 延迟的回报 | 第25页 |
2.4.3 探索与利用 | 第25页 |
2.5 强化学习主要算法 | 第25-30页 |
2.5.1 蒙特卡罗方法 | 第26页 |
2.5.2 时间差分TD法 | 第26-28页 |
2.5.3 Q学习 | 第28-29页 |
2.5.4 SARSA学习 | 第29页 |
2.5.5 Dyna学习框架 | 第29-30页 |
2.5.6 Actor-Critic学习 | 第30页 |
2.6 小结 | 第30-31页 |
第三章Q学习算法改进研究 | 第31-37页 |
3.1 引言 | 第31页 |
3.2 Q学习算法及其收敛性研究 | 第31-32页 |
3.3 Q学习算法主要问题 | 第32-34页 |
3.3.1 收敛速度问题 | 第32-33页 |
3.3.2 信度分配问题 | 第33页 |
3.3.3 探索与利用平衡问题 | 第33-34页 |
3.4 Q(λ)学习 | 第34-35页 |
3.5 小结 | 第35-37页 |
第四章 基于CMAC网络的Q学习算法研究 | 第37-47页 |
4.1 引言 | 第37页 |
4.2 BP神经网络 | 第37-42页 |
4.2.1 BP网络的学习算法 | 第37-41页 |
4.2.2 BP网络的设计 | 第41-42页 |
4.3 CMAC神经网络 | 第42-43页 |
4.4 基于神经网络的Q学习框架 | 第43-44页 |
4.5 基于CMAC的Q学习算法 | 第44页 |
4.6 小结 | 第44-47页 |
第五章 基于改进Q学习的AUV避障研究 | 第47-55页 |
5.1 引言 | 第47页 |
5.2 仿真实验设计 | 第47-48页 |
5.2.1 环境状态表示 | 第47页 |
5.2.2 动作空间表示 | 第47页 |
5.2.3 奖赏函数设计 | 第47-48页 |
5.2.4 动作选择策略设计 | 第48页 |
5.3 仿真实验流程 | 第48-49页 |
5.4 仿真结果与分析 | 第49-53页 |
5.5 小结 | 第53-55页 |
第六章 结论 | 第55-57页 |
6.1 结论 | 第55页 |
6.2 展望 | 第55-57页 |
参考文献 | 第57-59页 |
作者简介 | 第59页 |
作者在攻读硕士学位期间发表的学术论文 | 第59-61页 |
致谢 | 第61-62页 |