首页--数理科学和化学论文--概率论与数理统计论文--数理统计论文

最小二乘时序差分中的正则化:罚函数和贝叶斯的比较

摘要第4-5页
ABSTRACT第5页
1 绪论第8-12页
    1.1 研究意义第8页
    1.2 研究现状第8-9页
    1.3 本文的组织结构第9-12页
2 最小二乘时序差分第12-20页
    2.1 问题描述及基本方法第12-14页
        2.1.1 马尔科夫决策过程第12-13页
        2.1.2 价值函数的线性近似第13-14页
        2.1.3 最小二乘时序差分第14页
    2.2 带正则项的最小二乘时序差分第14-17页
        2.2.1 l_2和l_1罚函数第14-16页
        2.2.2 非凸罚函数第16-17页
    2.3 扩展到控制问题第17-18页
    2.4 本章小结第18-20页
3 最小二乘时序差分中的贝叶斯推断第20-30页
    3.1 层次贝叶斯模型和吉布斯采样第20-21页
    3.2 贝叶斯最小二乘时序差分第21-28页
        3.2.1 模型结构第21-22页
        3.2.2 全条件后验分布第22-26页
        3.2.3 预先正交标准化处理第26页
        3.2.4 正则化参数的选择第26-28页
    3.3 与最优化方法解的比较第28-29页
    3.4 本章小结第29-30页
4 数值实验第30-38页
    4.1 马尔科夫链问题第30-35页
    4.2 爬山车问题第35-36页
    4.3 本章小结第36-38页
5 总结第38-40页
参考文献第40-44页
致谢第44-45页

论文共45页,点击 下载论文
上一篇:基于全同态加密的电子投票方案研究
下一篇:基于卷积神经网络的隐式篇章关系识别模型