摘要 | 第4-5页 |
ABSTRACT | 第5页 |
1 引言 | 第11-16页 |
1.1 选题背景及研究意义 | 第11-12页 |
1.1.1 选题背景 | 第11-12页 |
1.1.2 研究意义 | 第12页 |
1.2 研究内容、研究思路、研究方法 | 第12-15页 |
1.2.1 研究内容 | 第12-13页 |
1.2.2 研究思路 | 第13-15页 |
1.2.3 研究方法 | 第15页 |
1.3 创新之处 | 第15-16页 |
2 文献综述 | 第16-27页 |
2.1 深度学习文献综述 | 第16-19页 |
2.1.1 深度学习认知文献 | 第16-17页 |
2.1.2 深度学习理论和模型研究现状 | 第17-18页 |
2.1.3 深度学习的应用 | 第18-19页 |
2.2 强化学习文献综述 | 第19-22页 |
2.2.1 强化学习的认知 | 第19-20页 |
2.2.2 强化学习理论研究现状 | 第20-21页 |
2.2.3 强化学习的应用 | 第21-22页 |
2.3 深度强化学习文献综述 | 第22-27页 |
2.3.1 深度强化学习的早期研究成果 | 第23页 |
2.3.2 基于卷积神经网络的深度强化学习理论研究 | 第23-24页 |
2.3.3 基于递归神经网络的深度强化学习 | 第24-27页 |
3 深度强化学习理论基础及模型 | 第27-48页 |
3.1 深度学习理论基础及模型 | 第27-36页 |
3.1.1 限制波尔兹曼机(Restricted Boltzmann Machine (RBM)) | 第27-29页 |
3.1.2 Deep Belief Networks深信度网络 | 第29-32页 |
3.1.3 Convolutional Neural Networks卷积神经网络 | 第32-36页 |
3.2 强化学习的理论及模型 | 第36-48页 |
3.2.1 强化学习理论及模型基础 | 第36-37页 |
3.2.2 马尔科夫决策过程(Markov Decision Process,MDP) | 第37-43页 |
3.2.3 蒙特卡洛法(Monte Carlo Methods) | 第43-45页 |
3.2.4 时间差分(TD)算法 | 第45-46页 |
3.2.5 Sarsa算法 | 第46页 |
3.2.6 Q-learning算法 | 第46-48页 |
4 股市深度强化学习投资策略的构建 | 第48-57页 |
4.1 股市深度强化学习投资模型以及其困难的解决 | 第48页 |
4.2 策略算法以及流程 | 第48-51页 |
4.2.1 经验回放(experience replay) | 第50页 |
4.2.2 探索-开发(Exploration-Exploitation) | 第50-51页 |
4.3 策略算法步骤和框架 | 第51-52页 |
4.4 股市投资策略的构建 | 第52-57页 |
4.4.1 输入数据的处理 | 第52页 |
4.4.2 状态的设定 | 第52-53页 |
4.4.3 特征选取 | 第53页 |
4.4.4 目标函数 | 第53-54页 |
4.4.5 交易的设定 | 第54页 |
4.4.6 对照策略设置 | 第54页 |
4.4.7 网络架构的设计 | 第54-55页 |
4.4.8 实验方案的设计 | 第55-57页 |
5 股市深度强化学习投资策略实证分析 | 第57-68页 |
5.1 股市深度强化学习实证数据选取与处理 | 第57-58页 |
5.1.2 数据的选取 | 第57页 |
5.1.3 数据的处理 | 第57-58页 |
5.2 股市深度强化学习实证结果分析 | 第58-67页 |
5.2.1 实证资金曲线走势 | 第58-60页 |
5.2.2 年化收益率 | 第60页 |
5.2.3 超额收益率(Alpha) | 第60-61页 |
5.2.4 贝塔值 | 第61-63页 |
5.2.5 夏普比率 | 第63页 |
5.2.6 信息比率 | 第63-64页 |
5.2.7 最大回撤 | 第64页 |
5.2.8 最大连续上涨和最大连续下跌天数 | 第64-65页 |
5.2.9 上涨概率 | 第65页 |
5.2.10 最大单周期涨幅与最大单周期跌幅 | 第65页 |
5.2.11 个股实证评估 | 第65-67页 |
5.3 本章小结 | 第67-68页 |
6 总结、展望与建议 | 第68-70页 |
6.1 总结 | 第68页 |
6.2 展望与建议 | 第68-70页 |
参考文献 | 第70-74页 |
致谢 | 第74页 |