强化学习问题中的正则化最小二乘策略评价算法的研究

学位论文数据集	第5-6页
摘要	第6-8页
ABSTRACT	第8-10页
第一章绪论	第17-39页
1.1 课题来源	第17页
1.2 课题背景	第17-19页
1.3 策略评价算法研究及其发展	第19-29页
1.3.1 策略评价算法	第19-21页
1.3.2 值函数逼近问题	第21-23页
1.3.3 时域差分算法	第23-25页
1.3.4 离策略收敛一阶策略评价算法	第25-27页
1.3.5 最小二乘策略评价算法	第27-29页
1.4 策略评价算法中的正则化	第29-33页
1.4.1 参数正则化	第29-31页
1.4.2 邻近算法和ADMM	第31-32页
1.4.3 正则化技术在策略评价算法研究中的应用	第32-33页
1.5 强化学习中应用的benchmark问题	第33-36页
1.5.1 20状态Markov链问题	第34-35页
1.5.2 Barid离策略反例问题	第35页
1.5.3 小车爬山问题	第35-36页
1.5.4 倒立摆问题	第36页
1.6 论文选题的立论、目的和意义及研究内容	第36-39页
1.6.1 论文选题的立论、目的和意义	第36-37页
1.6.2 论文的主要研究内容及技术方案	第37-39页
第二章带有梯度修正作用的核最小二乘时域差分算法	第39-59页
2.1 引言	第39-40页
2.2 带有梯度修正作用的最小二乘时域差分	第40-44页
2.2.1 目标函数	第40-41页
2.2.2 带有梯度修正作用的最小二乘时域差分	第41-44页
2.3 带有梯度修正作用的核最小二乘时域差分及核选择策略	第44-49页
2.3.1 带有梯度修正作用的核最小二乘时域差分	第44-46页
2.3.2 基于ALD的核函数自动选择策略	第46-47页
2.3.3 基于KLS-TDC的策略迭代	第47-49页
2.4 数值实验与分析	第49-56页
2.4.1 在策略学习性能的测试	第49-52页
2.4.2 离策略学习性能的测试	第52-54页
2.4.3 学习控制性能的测试	第54-56页
2.5 本章结论	第56-59页
第三章带有梯度修正作用的递推最小二乘时域差分及扩展	第59-83页
3.1 引言	第59-60页
3.2 带有梯度修正作用的递推最小二乘时域差分	第60-70页
3.2.1 正则化LS-TDC	第60-62页
3.2.2 带有资格迹的RC(λ)算法	第62-67页
3.2.3 对离策略问题的扩展形式	第67-69页
3.2.4 RC及LS-TDC的收敛性分析	第69-70页
3.3 在线l_2-正则化RC算法	第70-74页
3.3.1 在线l_2-正则化RC	第70-73页
3.3.2 在线l_2-正则化RC的收敛性分析	第73-74页
3.4 数值实验与分析	第74-82页
3.4.1 RC的策略评价性能测试	第74-78页
3.4.2 RGQ的学习控制性能测试	第78-79页
3.4.3 RRC与FRRC性能的测试	第79-82页
3.5 本章结论	第82-83页
第四章基于嵌套优化的特征选择策略评价方法	第83-101页
4.1 引言	第83-84页
4.2 基于嵌套优化的特征选择策略评价方法	第84-91页
4.2.1 目标函数	第84-86页
4.2.2 RC迭代校正	第86-87页
4.2.3 基于ADMM的FPE步骤优化	第87-90页
4.2.4 在线l_1-RC算法及扩展	第90-91页
4.3 l_1-RC的收敛性分析	第91-94页
4.4 数值实验与分析	第94-99页
4.4.1 策略评价性能的测试	第94-98页
4.4.2 学习控制性能的测试	第98-99页
4.5 本章结论	第99-101页
第五章总结和展望	第101-103页
5.1 总结	第101-102页
5.2 后续工作展望	第102-103页
参考文献	第103-109页
致谢	第109-111页
研究成果及发表的学术论文目录	第111-113页
作者和导师简介	第113-115页
附件	第115-116页