首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

方差相关的策略梯度方法研究

中文摘要第4-5页
Abstract第5-6页
第一章 引言第10-17页
    1.1 研究背景及意义第10-12页
    1.2 研究现状第12-14页
    1.3 研究内容第14-15页
    1.4 论文组织结构第15-17页
第二章 背景知识第17-26页
    2.1 马尔科夫决策过程第17-19页
    2.2 部分可观测马尔科夫决策过程第19-20页
    2.3 方差相关风险评估标准第20-21页
    2.4 强化学习基本方法第21-25页
        2.4.1 时间差分方法第21-22页
        2.4.2 策略梯度方法第22-24页
        2.4.3 行动者-评论家方法第24-25页
    2.5 本章小结第25-26页
第三章 方差相关的离策略行动者-评论家算法第26-42页
    3.1 离策略行动者-评论家算法第26-32页
        3.1.1 离策略方法第26-27页
        3.1.2 离策略方法的奖赏方差第27-31页
        3.1.3 近似策略梯度方法第31-32页
    3.2 方差相关的离策略行动者-评论家算法第32-37页
        3.2.1 VOPAC算法第32-36页
        3.2.2 算法收敛性分析第36-37页
    3.3 实验及结果分析第37-41页
        3.3.1 Pinball实验描述第37-38页
        3.3.2 实验结果及分析第38-41页
    3.4 本章小结第41-42页
第四章 方差相关的策略梯度时间差分算法第42-56页
    4.1 时间差分与资格迹第42-46页
        4.1.1 n步TD预测第42-43页
        4.1.2 向前观点第43-44页
        4.1.3 向后观点第44-46页
    4.2 方差相关的策略梯度时间差分算法第46-51页
        4.2.1 VPGTD(l )第46-49页
        4.2.2 向后与向前观点一致性分析第49-51页
    4.3 实验及结果分析第51-54页
        4.3.1 Acrobot实验描述第52-53页
        4.3.2 实验结果及分析第53-54页
    4.4 本章小结第54-56页
第五章 带中间状态的方差相关行动者-评论家算法第56-73页
    5.1 带中间状态的POMDP模型第56-60页
        5.1.1 中间状态第56-58页
        5.1.2 带中间状态的策略梯度方法第58-59页
        5.1.3 POMDP模型中方差相关策略梯度方法第59-60页
    5.2 带中间状态的方差相关行动者-评论家算法第60-67页
        5.2.1 ACIS算法第60-63页
        5.2.2 VACIS算法第63-65页
        5.2.3 算法收敛性分析第65-67页
    5.3 实验及结果分析第67-72页
        5.3.1 Load-Unload与Navigation实验描述第67-69页
        5.3.2 ACIS算法实验及结果分析第69-71页
        5.3.3 VACIS算法实验及结果分析第71-72页
    5.4 本章小结第72-73页
第六章 总结与展望第73-76页
    6.1 总结第73-74页
    6.2 展望第74-76页
参考文献第76-81页
攻读硕士学位期间公开发表(录用)的论文及参与的项目第81-82页
    一、公开发表(录用)的学术论文第81页
    二、专利第81页
    三、参加的科研项目第81-82页
致谢第82-83页

论文共83页,点击 下载论文
上一篇:基于特征的轨迹数据集化简研究
下一篇:一种基于仿生多纤毛的磁力驱动微机器人系统设计和研究