摘要 | 第1-6页 |
Abstract | 第6-9页 |
目录 | 第9-13页 |
1 引言 | 第13-18页 |
·研究背景和意义 | 第13-14页 |
·国内外随机森林优化方法综述 | 第14-16页 |
·引入新的算法进行优化的方法综述 | 第14-15页 |
·将数据预处理融入随机森林算法的优化方法综述 | 第15页 |
·针对随机森林算法自身构建过程进行优化的方法综述 | 第15-16页 |
·本文的主要工作与结构安排 | 第16-18页 |
·本文的主要工作 | 第16-17页 |
·本文的结构 | 第17-18页 |
2 随机森林研究综述 | 第18-41页 |
·随机森林的基分类器――决策树 | 第18-24页 |
·决策树概述 | 第18页 |
·决策树生成过程中的节点分裂算法 | 第18-24页 |
·决策树分类中存在的问题 | 第24页 |
·随机森林的构建过程 | 第24-27页 |
·为每棵决策树抽样产生训练集 | 第24-26页 |
·构建每棵决策树 | 第26-27页 |
·森林的形成及算法的执行 | 第27页 |
·随机森林的随机性分析 | 第27-29页 |
·训练集的随机选取 | 第28页 |
·随机特征变量的随机性 | 第28页 |
·随机森林的随机性在实证分析中的表现及解决办法 | 第28-29页 |
·随机森林的理论概述 | 第29-31页 |
·随机森林的数学定义 | 第29-31页 |
·随机森林的性质 | 第31页 |
·随机森林的性能指标 | 第31-35页 |
·分类效果系列指标 | 第31-33页 |
·泛化误差与 OOB 估计 | 第33-34页 |
·随机森林算法运行效率指标 | 第34-35页 |
·几种实现随机森林算法的软件介绍 | 第35-37页 |
·Weka 软件 | 第35-36页 |
·R 软件 | 第36-37页 |
·MATLAB 软件 | 第37页 |
·随机森林算法存在的问题 | 第37-39页 |
·不能很好地处理非平衡数据 | 第37-38页 |
·对连续性变量的处理还需要进行离散化 | 第38页 |
·随机森林算法的分类精度还需要进一步的提升 | 第38-39页 |
·本章小结 | 第39-41页 |
3 随机森林处理非平衡数据集的优化研究 | 第41-58页 |
·非平衡数据简介 | 第41页 |
·非平衡数据集分类困难的原因分析 | 第41-44页 |
·数据稀少问题 | 第42页 |
·数据碎片问题 | 第42-43页 |
·归纳偏差问题 | 第43页 |
·噪声问题 | 第43页 |
·评价指标选择问题 | 第43-44页 |
·数据分布问题 | 第44页 |
·非平衡数据集分类问题的解决办法 | 第44-47页 |
·通过改进算法解决非平衡问题的方法简介 | 第44-45页 |
·通过改造数据解决非平衡问题的方法简介 | 第45-47页 |
·随机森林处理非平衡数据分类问题的优化--C_SMOTE 算法 | 第47-50页 |
·C_SOMTE 算法设计 | 第47-49页 |
·C_SMOTE 算法流程图 | 第49-50页 |
·使用 C_SMOTE 算法提升随机森林算法性能实证分析 | 第50-57页 |
·数据集介绍 | 第50页 |
·实验环境 | 第50-51页 |
·实验结果及分析 | 第51-57页 |
·本章小结 | 第57-58页 |
4 随机森林处理连续变量的优化研究 | 第58-72页 |
·连续变量离散化概述 | 第58-60页 |
·连续变量离散化的概念 | 第58页 |
·连续变量离散化的衡量标准 | 第58-59页 |
·随机森林算法中连续变量离散化方法 | 第59-60页 |
·连续变量离散化的方法简介 | 第60-64页 |
·简单的连续变量离散化算法 | 第60-62页 |
·基于信息熵的 CADD 系列算法 | 第62-63页 |
·基于统计学的 CHI2 系列算法简介 | 第63-64页 |
·随机森林处理连续变量的优化—COR_CHI2 算法 | 第64-66页 |
·COR_CHI2 算法设计 | 第65-66页 |
·COR_CHI2 算法程序流程图 | 第66页 |
·COR_CHI2 算法对随机森林算法性能优化实证分析 | 第66-71页 |
·实证分析使用的数据集介绍 | 第66-67页 |
·COR_CHI2 算法对数据集的约简效果分析 | 第67-70页 |
·COR_CHI2 算法约简后的数据集对随机森林算法运行效率的影响分析 | 第70-71页 |
·本章小结 | 第71-72页 |
5 随机森林算法分类性能的优化研究 | 第72-94页 |
·随机森林算法分类性能的影响因素分析 | 第72-79页 |
·森林中决策树的数量 | 第72-74页 |
·随机特征变量 F 的值 | 第74-76页 |
·不同的节点分裂算法比较 | 第76-79页 |
·随机森林的分类性能优化--节点分裂混合算法 | 第79-85页 |
·节点分裂混合算法描述 | 第80页 |
·节点分裂算法的程序流程 | 第80-81页 |
·混合算法分类性能实证分析 | 第81-83页 |
·混合算法与 R 软件中随机森林算法的比较 | 第83-85页 |
·混合算法稳定性分析 | 第85-90页 |
·混合算法稳定性估计的模型分析 | 第85-86页 |
·混合算法稳定性估计 | 第86-88页 |
·混合算法稳定状态分析 | 第88-90页 |
·混合算法形成的森林中相关度及强度分析 | 第90-92页 |
·随机森林中相关度及强度估计 | 第90页 |
·混合算法形成的森林中强度分析 | 第90-91页 |
·混合算法形成的森林中相关度分析 | 第91-92页 |
·本章小结 | 第92-94页 |
6 优化后的随机森林算法对优质股票池的选择 | 第94-110页 |
·量化投资中选股研究综述 | 第94-96页 |
·朴素贝叶斯分类方法在选股分析中的应用 | 第94-95页 |
·决策树分类方法在选股分析中的应用 | 第95页 |
·神经网络分类方法在选股分析中的应用 | 第95页 |
·支持向量机分类方法在选股分析中的应用 | 第95-96页 |
·使用优化后的随机森林算法进行选股分析的原因 | 第96页 |
·股票数据预处理方法简介 | 第96-100页 |
·数据标准化处理 | 第96-97页 |
·数据噪声处理 | 第97-100页 |
·选股模型指标体系的简介 | 第100-106页 |
·传统的价值型投资策略 | 第100-102页 |
·积极的成长型投资策略 | 第102页 |
·价值成长投资策略(GARP) | 第102-103页 |
·以价值成长投资策略为指导的选股模型指标体系的构建 | 第103-106页 |
·优化后的随机森林算法对优质股票池的选择 | 第106-109页 |
·样本的选择 | 第106-107页 |
·指标数据的财报匹配 | 第107页 |
·数据预处理 | 第107-108页 |
·当月实际表现分析 | 第108-109页 |
·本章小结 | 第109-110页 |
7 总结与展望 | 第110-112页 |
·本文的创新点 | 第110页 |
·今后的研究思路 | 第110-112页 |
8 参考文献和注释 | 第112-119页 |
9 附录 | 第119-132页 |
10 在学期间发表的学术论文和研究成果 | 第132-133页 |
11 后记 | 第133-134页 |