摘要 | 第5-7页 |
ABSTRACT | 第7-8页 |
主要符号表 | 第15-17页 |
第1章 绪论 | 第17-27页 |
1.1 研究背景和意义 | 第17-19页 |
1.2 研究现状 | 第19-22页 |
1.2.1 直复营销的研究现状 | 第19-21页 |
1.2.2 强化学习的研究现状 | 第21-22页 |
1.3 主要研究内容 | 第22-24页 |
1.4 论文的结构安排 | 第24-27页 |
第2章 相关理论概述 | 第27-41页 |
2.1 强化学习概述 | 第27-28页 |
2.2 强化学习的组成要素 | 第28-31页 |
2.3 基于值函数的强化学习算法 | 第31-34页 |
2.3.1 动态规划法 | 第31-32页 |
2.3.2 蒙特卡洛方法 | 第32-33页 |
2.3.3 时间差分方法 | 第33-34页 |
2.4 值函数的逼近方法 | 第34-39页 |
2.4.1 参数化函数逼近 | 第35-39页 |
2.4.2 非参数化函数逼近 | 第39页 |
2.5 本章小结 | 第39-41页 |
第3章 基于改进的Q-learning算法在不定期直复营销中的研究 | 第41-63页 |
3.1 研究动机 | 第41-42页 |
3.1.1 直复营销与序贯决策 | 第41-42页 |
3.1.2 强化学习 | 第42页 |
3.2 改进的Q-learning算法在直复营销中的建模 | 第42-50页 |
3.2.1 直复营销问题的形式化描述 | 第42-43页 |
3.2.2 基于Q-learning的直复营销模型构建 | 第43-45页 |
3.2.3 Interval-Q算法 | 第45-49页 |
3.2.4 基于TD偏差的Q采样算法 | 第49-50页 |
3.3 仿真实验 | 第50-61页 |
3.3.1 数据集 | 第51-53页 |
3.3.2 仿真环境及评估方法 | 第53-55页 |
3.3.3 基准模型与实验设置 | 第55-56页 |
3.3.4 仿真结果 | 第56-61页 |
3.4 本章小结 | 第61-63页 |
第4章 基于双网络的DQN模型在定期直复营销中的研究 | 第63-85页 |
4.1 研究动机 | 第63-65页 |
4.1.1 状态的部分可观测性与线性函数逼近 | 第63-64页 |
4.1.2 深度强化学习DQN模型 | 第64-65页 |
4.2 DQN_RNN模型 | 第65-71页 |
4.2.1 DQN模型 | 第65-67页 |
4.2.2 基于RNN的DQN模型 | 第67-71页 |
4.3 基于双网络的DQN模型 | 第71-77页 |
4.3.1 双网络独立训练模型 | 第71-73页 |
4.3.2 双网络一步联合训练模型 | 第73-75页 |
4.3.3 双网络两步联合训练模型 | 第75-77页 |
4.4 实验仿真 | 第77-83页 |
4.4.1 数据集 | 第77-78页 |
4.4.2 仿真环境 | 第78页 |
4.4.3 基准模型和实验设置 | 第78-79页 |
4.4.4 仿真结果 | 第79-83页 |
4.5 本章小结 | 第83-85页 |
第5章 总结与展望 | 第85-87页 |
5.1 本文工作总结 | 第85-86页 |
5.2 下一步工作方向 | 第86-87页 |
参考文献 | 第87-91页 |
致谢 | 第91-93页 |
在读期间发表的学术论文与取得的研究成果 | 第93页 |