首页--社会科学总论论文--管理学论文--决策学论文

确定性策略强化学习算法中的行动策略的研究与应用

摘要第3-4页
Abstract第4页
1 绪论第6-12页
    1.1 研究意义第6页
    1.2 国内外研究现状第6-7页
    1.3 研究目的第7-8页
    1.4 Pendulum问题简介第8页
    1.5 名词解释与符号说明第8-10页
    1.6 本文结构第10-12页
2 强化学习的基本原理第12-29页
    2.1 强化学习模型第12-14页
    2.2 经典的强化学习算法第14-19页
    2.3 连续状态空间上的强化学习方法第19-23页
    2.4 强化学习中的其他技术第23-26页
    2.5 神经网络第26-28页
    2.6 本章小结第28-29页
3 确定性策略梯度算法中的行动策略的研究与应用第29-39页
    3.1 基于值函数比值的探索策略第29-31页
    3.2 基于TD误差的探索策略第31-32页
    3.3 强化探索的确定性策略梯度算法第32-38页
    3.4 本章小结第38-39页
4 实验与仿真第39-48页
    4.1 实验设计第39-40页
    4.2 仿真实验第40-45页
    4.3 探索力度的比较第45-47页
    4.4 本章小结第47-48页
5 总结与展望第48-49页
参考文献第49-52页
附录:实验程序(Python语言)第52-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:内蒙古科技馆免费开放运行管理研究
下一篇:基于决策者态度的冲突分析图模型理论研究