最小二乘策略迭代算法研究

中文摘要	第4-5页
Abstract	第5-6页
第一章引言	第9-14页
1.1 研究背景及意义	第9-10页
1.2 研究现状及趋势	第10-11页
1.3 研究内容	第11-12页
1.4 论文组织结构	第12-14页
第二章最小二乘策略迭代算法	第14-22页
2.1 马尔可夫决策过程	第14-15页
2.2 最小二乘策略迭代	第15-21页
2.2.1 投影贝尔曼等式的矩阵形式	第15-18页
2.2.2 最小二乘策略迭代	第18-19页
2.2.3 在线最小二乘策略迭代	第19-21页
2.3 本章小结	第21-22页
第三章批量最小二乘策略迭代算法	第22-38页
3.1 批量强化学习算法	第22-23页
3.2 批量最小二乘策略迭代算法	第23-27页
3.3 算法分析	第27-30页
3.3.1 收敛性分析	第27-29页
3.3.2 复杂度分析	第29-30页
3.4 仿真实验	第30-37页
3.4.1 实验描述	第30-31页
3.4.2 实验设置	第31页
3.4.3 实验分析	第31-37页
3.5 本章小结	第37-38页
第四章自动批量最小二乘策略迭代算法	第38-48页
4.1 定点步长参数评估方法	第38-41页
4.2 自动批量最小二乘策略迭代算法	第41-42页
4.3 仿真实验	第42-47页
4.3.1 实验描述	第42页
4.3.2 实验设置	第42-43页
4.3.3 实验分析	第43-47页
4.4 本章小结	第47-48页
第五章连续动作空间的批量最小二乘策略迭代算法	第48-59页
5.1 二值动作搜索	第48-49页
5.2 快速特征选择	第49-50页
5.3 连续动作空间的快速特征选择批量最小二乘策略迭代算法	第50-52页
5.4 仿真实验	第52-57页
5.4.1 实验描述	第52-53页
5.4.2 实验设置	第53页
5.4.3 实验分析	第53-57页
5.5 本章小结	第57-59页
第六章总结与展望	第59-61页
6.1 总结	第59-60页
6.2 展望	第60-61页
参考文献	第61-66页
攻读硕士学位期间发表（录用）的论文及参与的项目	第66-67页
一、发表（录用）的论文	第66页
二、科研成果	第66页
三、参加的科研项目	第66-67页
致谢	第67-68页