首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文

径向基函数网络和实例学习在强化学习中的应用

第一章 绪论第1-16页
 1.1 引言第11-12页
 1.2 强化学习的历史第12-13页
 1.3 强化学习的现状第13-15页
 1.4 本文的组织第15-16页
第二章 强化学习模型及主要算法第16-31页
 2.1 概述第16-17页
 2.2 马尔可夫决策过程(MDP)模型第17-19页
 2.3 动态规划值迭代第19-21页
  2.3.1 值迭代第19-20页
  2.3.2 策略迭代第20-21页
 2.4 蒙特卡洛算法(Monte Carlo)第21-23页
 2.5 即时差分学习 TD(Temporal Differenee Learning)第23-27页
  2.5.1 即时差分(Temporal Differenee,TD)第23-24页
  2.5.2 探索与利用(Exploration versus Exploitation)第24页
  2.5.3 行动-评价器(Actor-Critic)第24-26页
  2.5.4 Sarsa算法第26页
  2.5.5 Q学习第26-27页
 2.6 多步强化学习第27-31页
  2.6.1 TD(λ)第27-28页
  2.6.2 Sarsa(λ)第28-29页
  2.6.3 Q(λ)第29-31页
第三章 神经网络和强化学习第31-44页
 3.1 引言第31-32页
 3.2 值函数近似第32-37页
  3.2.1 强化学习和近似器第32-33页
  3.2.2 线性值函数近似第33-37页
 3.3 神经网络和强化学习第37-43页
  3.3.1 MLP和 RL第37-38页
  3.3.2 RBF神经网络第38-40页
  3.3.3 基于 RBF网络的强化学习算法第40-41页
  3.3.4 实验第41-43页
 3.4 小结第43-44页
第四章 基于实例学习的强化学习算法第44-51页
 4.1 引言第44页
 4.2 实例学习第44-46页
 4.3 基于实例的强化学习算法第46-50页
  4.3.1 值函数预测第46页
  4.3.2 值函数更新(RL部分)第46-47页
  4.3.3 算法的分析第47-49页
  4.3.4 实验第49-50页
 4.4 小结第50-51页
第五章 总结和展望第51-53页
 5.1 总结第51页
 5.2 未来工作第51-53页
参考文献第53-57页
在读硕期间发表的学术论文及参与的项目第57页

论文共57页,点击 下载论文
上一篇:现代物理学渗透于高中物理教学的研究
下一篇:基于虚拟仪器的变量泵测试系统研究