学位论文数据集 | 第4-5页 |
摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
第一章 绪论 | 第13-19页 |
1.1 引言 | 第13-14页 |
1.2 研究发展与现状 | 第14-16页 |
1.3 本论文研究的内容 | 第16-19页 |
第二章 策略评价和策略寻优基础理论与算法 | 第19-25页 |
2.1 马尔可夫决策过程与策略问题 | 第19-21页 |
2.1.1 马尔可夫决策过程 | 第19-20页 |
2.1.2 策略和值函数 | 第20-21页 |
2.2 最小二乘时序差分算法 | 第21-23页 |
2.2.1 多步TD学习算法 | 第21-22页 |
2.2.2 多步最小二乘TD学习算法 | 第22-23页 |
2.3 Q-强化学习策略寻优算法 | 第23-24页 |
2.4 本章小结 | 第24-25页 |
第三章 基于改进ELM的最小二乘时序差分算法 | 第25-39页 |
3.1 ELM机理论及改进 | 第25-29页 |
3.1.1 ELM的原理及结构 | 第25-27页 |
3.1.2 改进ELM方法 | 第27-29页 |
3.2 基于改进ELM的资格迹最小二乘时序差分策略评价 | 第29-36页 |
3.2.1 基于改进ELM-LSTD(λ)的策略评价算法 | 第29-30页 |
3.2.2 基于改进ELM-LSTD(λ)的学习预测仿真实验 | 第30-36页 |
3.4 本章小结 | 第36-39页 |
第四章 基于改进ELM的递归最小二乘TD(λ)策略评价算法 | 第39-53页 |
4.1 递归最小二乘时序差分强化学习 | 第39-41页 |
4.2 基于改进ELM的递归LSTD(λ)的策略评价 | 第41-52页 |
4.2.1 基于改进ELM-RLSTD(λ)的策略评价算法 | 第41-42页 |
4.2.2 多维广义Hop-world问题及倒立摆仿真验证模型 | 第42-45页 |
4.2.3 基于改进ELM-RLSTD(λ)算法学习预测仿真结果 | 第45-52页 |
4.3 本章小结 | 第52-53页 |
第五章 基于改进ELM的递归最小二乘Q(λ)算法及路径寻优 | 第53-65页 |
5.1 多步Q学习路径寻优算法 | 第53-55页 |
5.2 基于最小二乘Q(λ)路径寻优算法 | 第55页 |
5.3 基于改进ELM的递归最小二乘Q(λ)策略寻优算法 | 第55-56页 |
5.4 策略游戏(RPG)中路径寻优仿真实验 | 第56-62页 |
5.4.1 实验场景 | 第57-58页 |
5.4.2 仿真学习结果与比较 | 第58-62页 |
5.5 本章小结 | 第62-65页 |
第六章 总结与展望 | 第65-67页 |
6.1 全文总结 | 第65页 |
6.2 未来展望 | 第65-67页 |
参考文献 | 第67-71页 |
致谢 | 第71-73页 |
研究成果及发表的学术论文 | 第73-75页 |
导师和作者简介 | 第75-77页 |
附件 | 第77-78页 |