摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
缩略语对照表 | 第11-15页 |
第一章 绪论 | 第15-21页 |
1.1 选题背景 | 第15-16页 |
1.2 国内外研究现状 | 第16-18页 |
1.2.1 城市一卡通的现状 | 第16页 |
1.2.2 海量数据实时处理与离线模型训练的研究现状 | 第16-18页 |
1.3 研究内容与工作 | 第18页 |
1.4 论文结构 | 第18-21页 |
第二章 相关技术概述 | 第21-31页 |
2.1 数据异常检测 | 第21-24页 |
2.1.1 聚类算法 | 第21-22页 |
2.1.2 Spark MLlib库 | 第22页 |
2.1.3 Kmeans | 第22-24页 |
2.2 内存计算框架 | 第24-27页 |
2.2.1 大数据生态体系 | 第24-25页 |
2.2.2 Spark Streaming流式计算 | 第25-27页 |
2.3 分布式消息队列Kafka | 第27-29页 |
2.3.1 Kafka概述 | 第27-28页 |
2.3.2 Zoo Keeper与Kafka集成 | 第28-29页 |
2.4 内存数据库Redis | 第29页 |
2.5 本章小结 | 第29-31页 |
第三章 数据分析系统需求分析 | 第31-43页 |
3.1 系统整体概述 | 第31-32页 |
3.1.1 系统业务 | 第31页 |
3.1.2 系统技术框架 | 第31-32页 |
3.2 总体需求分析 | 第32-34页 |
3.2.1 功能需求分析 | 第32-33页 |
3.2.2 非功能需求分析 | 第33-34页 |
3.3 系统模块划分 | 第34-41页 |
3.3.1 刷卡数据采集模块 | 第35-36页 |
3.3.2 数据清洗转化模块 | 第36-37页 |
3.3.3 模型训练模块 | 第37-39页 |
3.3.4 数据分析模块 | 第39-40页 |
3.3.5 结果反馈模块 | 第40-41页 |
3.4 本章小结 | 第41-43页 |
第四章 数据分析系统的设计与实现 | 第43-69页 |
4.1 数据分析系统总体设计 | 第43-45页 |
4.2 数据分析系统类图设计 | 第45-47页 |
4.3 数据的采集 | 第47-49页 |
4.4 数据预处理 | 第49-57页 |
4.4.1 数据的清洗 | 第49-52页 |
4.4.2 特征值提取 | 第52-55页 |
4.4.3 Kafka数据生产 | 第55-57页 |
4.5 异常检测模型的训练 | 第57-62页 |
4.5.1 Lambda架构与异常检测 | 第57-58页 |
4.5.2 W-Kmeans与模型训练 | 第58-62页 |
4.6 Spark Streaming实时异常检测 | 第62-66页 |
4.6.1 模型调用 | 第63页 |
4.6.2 模型调用结果的转化 | 第63-66页 |
4.7 实时数据迭代模型 | 第66-67页 |
4.8 本章小结 | 第67-69页 |
第五章 数据分析参数调优与测试 | 第69-85页 |
5.1 运行环境搭建 | 第69-72页 |
5.1.1 软硬件环境搭建 | 第69-70页 |
5.1.2 系统部署与启动 | 第70-72页 |
5.2 模型参数调整 | 第72-76页 |
5.2.1 时间区域调整 | 第72-73页 |
5.2.2 聚类个数调整 | 第73-74页 |
5.2.3 模型权重调整 | 第74-76页 |
5.3 数据分析结果及准确率 | 第76-77页 |
5.4 数据分析系统功能测试 | 第77-82页 |
5.4.1 刷卡数据采集模块测试 | 第78页 |
5.4.2 数据清洗转化模块测试 | 第78-79页 |
5.4.3 模型训练模块测试 | 第79-80页 |
5.4.4 数据分析模块测试 | 第80-81页 |
5.4.5 结果反馈模块测试 | 第81-82页 |
5.5 数据分析系统非功能测试 | 第82-84页 |
5.5.1 系统性能测试 | 第82-83页 |
5.5.2 系统稳定性测试 | 第83-84页 |
5.6 本章小结 | 第84-85页 |
第六章 总结与展望 | 第85-87页 |
6.1 总结 | 第85页 |
6.2 展望 | 第85-87页 |
参考文献 | 第87-89页 |
致谢 | 第89-91页 |
作者简介 | 第91-92页 |