摘要 | 第3-4页 |
ABSTRACT | 第4页 |
1 绪论 | 第8-13页 |
1.1 课题的研究背景及意义 | 第8-9页 |
1.2 国内外研究现状 | 第9-12页 |
1.3 论文主要工作及组织结构 | 第12-13页 |
2 相关理论技术 | 第13-18页 |
2.1 挖掘平台介绍 | 第13-15页 |
2.1.1 腾讯云云服务器 | 第13页 |
2.1.2 Hadoop技术 | 第13-14页 |
2.1.3 Spark技术 | 第14-15页 |
2.1.4 SparkMLlib机器学习库 | 第15页 |
2.2 数据挖掘理论 | 第15-17页 |
2.2.1 数据挖掘的概念 | 第15-16页 |
2.2.2 数据挖掘的对象 | 第16页 |
2.2.3 数据挖掘的任务 | 第16页 |
2.2.4 数据挖掘的流程 | 第16-17页 |
2.3 本章小结 | 第17-18页 |
3 校园一卡通消费数据的预处理 | 第18-27页 |
3.1 数据采集 | 第18-19页 |
3.2 数据清理 | 第19-21页 |
3.2.1 处理缺失值 | 第20-21页 |
3.2.2 处理异常值 | 第21页 |
3.3 数据集成和变换 | 第21-23页 |
3.4 用户消费数据预处理 | 第23-26页 |
3.4.1 学生信息预处理 | 第23-24页 |
3.4.2 一卡通消费数据预处理 | 第24-26页 |
3.5 本章小结 | 第26-27页 |
4 高校贫困生综合评价模型 | 第27-40页 |
4.1 基于Logistic回归的数据挖掘模型 | 第27-32页 |
4.1.1 Logistic回归模型 | 第28-30页 |
4.1.2 随机梯度上升法的研究及改进 | 第30-32页 |
4.2 基于SVM算法的数据挖掘模型 | 第32-36页 |
4.2.1 线性支持向量机 | 第33-35页 |
4.2.2 非线性支持向量机 | 第35-36页 |
4.3 Logistic回归和SVM算法的集成研究 | 第36-37页 |
4.3.1 集成思想 | 第36-37页 |
4.3.2 集成判别分析 | 第37页 |
4.4 模型评价 | 第37-39页 |
4.5 本章小结 | 第39-40页 |
5 实验设计与结果分析 | 第40-52页 |
5.1 搭建集群 | 第40-44页 |
5.2 测试集群 | 第44页 |
5.3 实验数据集 | 第44-45页 |
5.4 实验设计与实现 | 第45-51页 |
5.4.1 训练Logistic回归与SVM算法模型 | 第46-49页 |
5.4.2 算法融合前后对比 | 第49-50页 |
5.4.3 模型应用及结果分析 | 第50-51页 |
5.5 本章小结 | 第51-52页 |
6 总结与展望 | 第52-53页 |
6.1 总结 | 第52页 |
6.2 展望 | 第52-53页 |
致谢 | 第53-54页 |
参考文献 | 第54-57页 |
附录 | 第57页 |