面向基于强化学习推荐应用的混杂环境重构

摘要	第4-6页
Abstract	第6-7页
1 绪论	第10-18页
1.1 引言	第10-12页
1.2 研究现状	第12-15页
1.3 研究问题	第15-16页
1.4 本文工作	第16-18页
2 强化学习与环境重构	第18-28页
2.1 引言	第18-19页
2.2 强化学习与马尔科夫决策过程	第19页
2.3 环境重构中的学习算法	第19-23页
2.4 强化学习环境重构	第23-27页
2.5 小结	第27-28页
3 面向推荐应用的混杂环境重构	第28-44页
3.1 引言	第28-29页
3.2 混杂环境训练框架	第29-31页
3.3 理论推导	第31-34页
3.4 学习算法	第34-38页
3.5 实验验证	第38-42页
3.6 小结	第42-44页
4 基于混杂环境重构的司机活动推荐系统	第44-54页
4.1 引言	第44-45页
4.2 任务场景描述	第45-46页
4.3 混杂环境重构	第46-48页
4.4 推荐策略训练	第48页
4.5 实验验证	第48-53页
4.6 小结	第53-54页
5 结论	第54-56页
5.1 总结	第54-55页
5.2 展望	第55-56页
致谢	第56-58页
参考文献	第58-64页
简历与科研成果	第64-65页