面向基于强化学习推荐应用的混杂环境重构
| 摘要 | 第4-6页 |
| Abstract | 第6-7页 |
| 1 绪论 | 第10-18页 |
| 1.1 引言 | 第10-12页 |
| 1.2 研究现状 | 第12-15页 |
| 1.3 研究问题 | 第15-16页 |
| 1.4 本文工作 | 第16-18页 |
| 2 强化学习与环境重构 | 第18-28页 |
| 2.1 引言 | 第18-19页 |
| 2.2 强化学习与马尔科夫决策过程 | 第19页 |
| 2.3 环境重构中的学习算法 | 第19-23页 |
| 2.4 强化学习环境重构 | 第23-27页 |
| 2.5 小结 | 第27-28页 |
| 3 面向推荐应用的混杂环境重构 | 第28-44页 |
| 3.1 引言 | 第28-29页 |
| 3.2 混杂环境训练框架 | 第29-31页 |
| 3.3 理论推导 | 第31-34页 |
| 3.4 学习算法 | 第34-38页 |
| 3.5 实验验证 | 第38-42页 |
| 3.6 小结 | 第42-44页 |
| 4 基于混杂环境重构的司机活动推荐系统 | 第44-54页 |
| 4.1 引言 | 第44-45页 |
| 4.2 任务场景描述 | 第45-46页 |
| 4.3 混杂环境重构 | 第46-48页 |
| 4.4 推荐策略训练 | 第48页 |
| 4.5 实验验证 | 第48-53页 |
| 4.6 小结 | 第53-54页 |
| 5 结论 | 第54-56页 |
| 5.1 总结 | 第54-55页 |
| 5.2 展望 | 第55-56页 |
| 致谢 | 第56-58页 |
| 参考文献 | 第58-64页 |
| 简历与科研成果 | 第64-65页 |