首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--人工神经网络与计算论文

基函数自适应的强化学习的神经网络实现的研究

学位论文数据集第3-4页
摘要第4-6页
ABSTRACT第6-7页
第一章 绪论第13-19页
    1.1 引言第13-14页
    1.2 前人的研究成果第14-16页
    1.3 本文研究的内容第16-19页
第二章 强化学习主要概念和相关算法第19-27页
    2.1 引言第19页
    2.2 强化学习的基本概念第19-23页
        2.2.1 马尔可夫决策过程第19-20页
        2.2.2 值函数第20-21页
        2.2.3 策略评价和策略迭代第21-22页
        2.2.4 强化学习中目标函数第22-23页
    2.3 最小二乘时域差分算法第23-25页
    2.4 本章小结第25-27页
第三章 基函数自适应的带有梯度修正作用的递推最小二乘时域差分算法的神经网络实现第27-55页
    3.1 引言第27页
    3.2 带有梯度修正作用的递推最小二乘时域差分算法第27-31页
    3.3 基函数自适应的带有梯度修正作用的递推最小二乘时域差分算法的神经网络实现第31-38页
        3.3.1 自适应RC网络结构第31-33页
        3.3.2 自适应RC网络算法实现第33-35页
        3.3.3 基于自适应RC网络的学习控制第35-36页
        3.3.4 基于自适应RC网络的算法收敛性分析第36-38页
    3.4 实验结果及分析第38-53页
        3.4.1 20状态马尔科夫链问题第38-49页
        3.4.2 小车爬山问题第49-51页
        3.4.3 倒立摆控制问题第51-53页
    3.5 本章小结第53-55页
第四章 基函数自适应的增量式最小二乘时域差分算法的神经网络实现第55-69页
    4.1 引言第55页
    4.2 增量式最小二乘时域差分算法(iLSTD)第55-57页
    4.3 基函数自适应的增量最小二乘时域差分算法的神经网络实现第57-63页
        4.3.1 自适应iLSTDC网络结构第57-58页
        4.3.2 自适应iLSTDC网络算法第58-61页
        4.3.3 基于自适应iLSTDC网络的学习控制第61-63页
    4.4 实验结果及分析第63-68页
    4.5 本章小结第68-69页
第五章 总结与展望第69-71页
    5.1 总结第69-70页
    5.2 展望第70-71页
参考文献第71-75页
致谢第75-77页
研究成果及发表的学术论文第77-79页
导师和作者简介第79-81页
附件第81-82页

论文共82页,点击 下载论文
上一篇:基于代理模型的CMA-ES算法研究及其在复合材料设计中的应用
下一篇:基于报警时间序列挖掘的报警关联分析方法