首页--工业技术论文--自动化技术、计算机技术论文--自动化基础理论论文--人工智能理论论文--自动推理、机器学习论文

基于值函数的强化学习在直复营销中的研究

摘要第5-7页
ABSTRACT第7-8页
主要符号表第15-17页
第1章 绪论第17-27页
    1.1 研究背景和意义第17-19页
    1.2 研究现状第19-22页
        1.2.1 直复营销的研究现状第19-21页
        1.2.2 强化学习的研究现状第21-22页
    1.3 主要研究内容第22-24页
    1.4 论文的结构安排第24-27页
第2章 相关理论概述第27-41页
    2.1 强化学习概述第27-28页
    2.2 强化学习的组成要素第28-31页
    2.3 基于值函数的强化学习算法第31-34页
        2.3.1 动态规划法第31-32页
        2.3.2 蒙特卡洛方法第32-33页
        2.3.3 时间差分方法第33-34页
    2.4 值函数的逼近方法第34-39页
        2.4.1 参数化函数逼近第35-39页
        2.4.2 非参数化函数逼近第39页
    2.5 本章小结第39-41页
第3章 基于改进的Q-learning算法在不定期直复营销中的研究第41-63页
    3.1 研究动机第41-42页
        3.1.1 直复营销与序贯决策第41-42页
        3.1.2 强化学习第42页
    3.2 改进的Q-learning算法在直复营销中的建模第42-50页
        3.2.1 直复营销问题的形式化描述第42-43页
        3.2.2 基于Q-learning的直复营销模型构建第43-45页
        3.2.3 Interval-Q算法第45-49页
        3.2.4 基于TD偏差的Q采样算法第49-50页
    3.3 仿真实验第50-61页
        3.3.1 数据集第51-53页
        3.3.2 仿真环境及评估方法第53-55页
        3.3.3 基准模型与实验设置第55-56页
        3.3.4 仿真结果第56-61页
    3.4 本章小结第61-63页
第4章 基于双网络的DQN模型在定期直复营销中的研究第63-85页
    4.1 研究动机第63-65页
        4.1.1 状态的部分可观测性与线性函数逼近第63-64页
        4.1.2 深度强化学习DQN模型第64-65页
    4.2 DQN_RNN模型第65-71页
        4.2.1 DQN模型第65-67页
        4.2.2 基于RNN的DQN模型第67-71页
    4.3 基于双网络的DQN模型第71-77页
        4.3.1 双网络独立训练模型第71-73页
        4.3.2 双网络一步联合训练模型第73-75页
        4.3.3 双网络两步联合训练模型第75-77页
    4.4 实验仿真第77-83页
        4.4.1 数据集第77-78页
        4.4.2 仿真环境第78页
        4.4.3 基准模型和实验设置第78-79页
        4.4.4 仿真结果第79-83页
    4.5 本章小结第83-85页
第5章 总结与展望第85-87页
    5.1 本文工作总结第85-86页
    5.2 下一步工作方向第86-87页
参考文献第87-91页
致谢第91-93页
在读期间发表的学术论文与取得的研究成果第93页

论文共93页,点击 下载论文
上一篇:中国工业地区专业化对经济增长的影响研究--基于281个城市数据的实证分析
下一篇:英语技能的人力资本效应与信号效应:来自筛选假设的解释