未知环境中主动探索策略研究

摘要	第5-6页
Abstract	第6-7页
第1章绪论	第10-20页
1.1 课题背景	第10-11页
1.2 国内外研究现状	第11-12页
1.3 地图学习综述	第12-15页
1.4 课题的主要工作概述	第15-18页
1.5 论文章节安排	第18-20页
第2章主动探索的基准模型和梯度下降法简介	第20-30页
2.1 引言	第20页
2.2 基准模型介绍	第20-24页
2.2.1 棋盘迷宫基准模型介绍	第20-22页
2.2.2 多臂赌博机基准模型	第22-24页
2.3 基于加法和乘法的梯度下降法	第24-25页
2.4 学习效率的自我调整	第25-27页
2.5 线性网络的自适应乘法梯度下降法	第27-29页
2.6 本章小结	第29-30页
第3章部分可观测环境中的地图学习和主动探索	第30-48页
3.1 引言	第30页
3.2 基于概率的地图学习方法回顾	第30-32页
3.3 探索模型-部分可观测马尔科夫决策过程(POMDP)	第32-33页
3.4 智能机器人预测能力衡量准则	第33-36页
3.5 内部奖赏函数	第36-39页
3.5.1 局部误差下降法	第36-37页
3.5.2 局部学习速率	第37页
3.5.3 全局学习效果估计	第37-39页
3.6 基于内部奖赏最大化的行为选择	第39-40页
3.7 系统仿真	第40-46页
3.7.1 基于加法与基于统计规律的梯度下降法的学习效果比较	第42-46页
3.7.2 基于乘法的探索规则与基于自适应乘法探索规则的学习效果比较	第46页
3.8 本章小结	第46-48页
第4章全地图学习主动探索策略	第48-64页
4.1 引言	第48页
4.2 探索策略	第48-49页
4.3 多臂赌博机中的探索行为	第49-51页
4.4 多臂赌博机中的探索策略	第51-52页
4.5 增益最大化最优探索策略	第52-56页
4.5.1 探索策略性能衡量和增益定义	第52-53页
4.5.2 理想增益最大化探索策略的渐近行为	第53-54页
4.5.3 增益最大化探索策略的最优性	第54-56页
4.6 基于增益最大化的主动探索	第56-57页
4.7 系统仿真	第57-63页
4.7.1 幂律分布参数	第58-60页
4.7.2 均匀分布参数	第60-63页
4.8 本章小结	第63-64页
第5章结论与展望	第64-66页
5.1 结论	第64-65页
5.2 展望	第65-66页
参考文献	第66-70页
致谢	第70页