首页--工业技术论文--自动化技术、计算机技术论文--自动化技术及设备论文--机器人技术论文--机器人论文

未知环境中主动探索策略研究

摘要第5-6页
Abstract第6-7页
第1章 绪论第10-20页
    1.1 课题背景第10-11页
    1.2 国内外研究现状第11-12页
    1.3 地图学习综述第12-15页
    1.4 课题的主要工作概述第15-18页
    1.5 论文章节安排第18-20页
第2章 主动探索的基准模型和梯度下降法简介第20-30页
    2.1 引言第20页
    2.2 基准模型介绍第20-24页
        2.2.1 棋盘迷宫基准模型介绍第20-22页
        2.2.2 多臂赌博机基准模型第22-24页
    2.3 基于加法和乘法的梯度下降法第24-25页
    2.4 学习效率的自我调整第25-27页
    2.5 线性网络的自适应乘法梯度下降法第27-29页
    2.6 本章小结第29-30页
第3章 部分可观测环境中的地图学习和主动探索第30-48页
    3.1 引言第30页
    3.2 基于概率的地图学习方法回顾第30-32页
    3.3 探索模型-部分可观测马尔科夫决策过程(POMDP)第32-33页
    3.4 智能机器人预测能力衡量准则第33-36页
    3.5 内部奖赏函数第36-39页
        3.5.1 局部误差下降法第36-37页
        3.5.2 局部学习速率第37页
        3.5.3 全局学习效果估计第37-39页
    3.6 基于内部奖赏最大化的行为选择第39-40页
    3.7 系统仿真第40-46页
        3.7.1 基于加法与基于统计规律的梯度下降法的学习效果比较第42-46页
        3.7.2 基于乘法的探索规则与基于自适应乘法探索规则的学习效果比较第46页
    3.8 本章小结第46-48页
第4章 全地图学习主动探索策略第48-64页
    4.1 引言第48页
    4.2 探索策略第48-49页
    4.3 多臂赌博机中的探索行为第49-51页
    4.4 多臂赌博机中的探索策略第51-52页
    4.5 增益最大化最优探索策略第52-56页
        4.5.1 探索策略性能衡量和增益定义第52-53页
        4.5.2 理想增益最大化探索策略的渐近行为第53-54页
        4.5.3 增益最大化探索策略的最优性第54-56页
    4.6 基于增益最大化的主动探索第56-57页
    4.7 系统仿真第57-63页
        4.7.1 幂律分布参数第58-60页
        4.7.2 均匀分布参数第60-63页
    4.8 本章小结第63-64页
第5章 结论与展望第64-66页
    5.1 结论第64-65页
    5.2 展望第65-66页
参考文献第66-70页
致谢第70页

论文共70页,点击 下载论文
上一篇:全自动晶棒定向粘料机控制系统设计及控制算法研究
下一篇:基于SDN的信息中心网络路由机制的设计与实现