基于聚类的网站访问数据分析技术及实现
摘要 | 第3-4页 |
Abstract | 第4页 |
1 绪论 | 第8-14页 |
1.1 选题背景 | 第8-9页 |
1.2 选题目的与意义 | 第9-10页 |
1.3 研究现状 | 第10-12页 |
1.3.1 分布式技术的研究现状 | 第10页 |
1.3.2 数据挖掘技术的研究现状 | 第10-11页 |
1.3.3 聚类算法的研究 | 第11页 |
1.3.4 前人研究成果综述 | 第11-12页 |
1.5 论文组织结构 | 第12-13页 |
1.6 本章小结 | 第13-14页 |
2 相关技术综述 | 第14-22页 |
2.1 分布式技术的研究 | 第14-16页 |
2.2 Hasoop生态系统 | 第16-20页 |
2.2.1 HDFS | 第16-18页 |
2.2.2 Hive概述 | 第18-19页 |
2.2.3 Spark概述 | 第19-20页 |
2.2.4 其他技术 | 第20页 |
2.3 数据挖掘 | 第20-21页 |
2.3.1 数据挖掘的定义 | 第21页 |
2.3.2 数据挖掘的流程 | 第21页 |
2.4 小结 | 第21-22页 |
3 基于聚类的网站访问数据分析的需求分析 | 第22-27页 |
3.1 整体概述 | 第22-23页 |
3.2 功能性需求分析 | 第23-25页 |
3.2.1 维度分析 | 第23-24页 |
3.2.2 指标分析 | 第24-25页 |
3.3 非功能性需求分析 | 第25页 |
3.4 本章小结 | 第25-27页 |
4 基于聚类的网站访问数据分析的设计 | 第27-36页 |
4.1 系统技术架构设计 | 第27-29页 |
4.2 Hive数据库设计 | 第29-34页 |
4.2.1 维度表设计 | 第29-30页 |
4.2.2 原数据表设计 | 第30-33页 |
4.2.3 结果表设计 | 第33-34页 |
4.3 MySql数据库设计 | 第34-35页 |
4.4 本章小结 | 第35-36页 |
5 基于聚类的网站访问数据分析的具体实现 | 第36-59页 |
5.1 数据采集落地处理模块的实现 | 第36-39页 |
5.1.1 Web服务器的对比 | 第36-37页 |
5.1.2 数据采集的流程 | 第37页 |
5.1.3 NginxWeb服务器的具体实现 | 第37-38页 |
5.1.4 日志数据落地后的滚动处理 | 第38-39页 |
5.2 数据收集聚合模块的实现 | 第39-43页 |
5.2.1 限速拦截器的实现 | 第39-41页 |
5.2.2 容灾拦截器的实现 | 第41-43页 |
5.3 数据清洗拆解模块的实现 | 第43-50页 |
5.3.1 数据清洗拆解的流程 | 第43-44页 |
5.3.2 加载数据的具体实现 | 第44-46页 |
5.3.3 转储数据的具体实现 | 第46-49页 |
5.3.4 导出数据的具体实现 | 第49-50页 |
5.4 数据分析模块的具体实现 | 第50-58页 |
5.4.1 自定义UDF时间函数的具体实现 | 第51-52页 |
5.4.2 离线计算指标的具体实现 | 第52-55页 |
5.4.3 实时分析的具体实现 | 第55-58页 |
5.5 本章小结 | 第58-59页 |
6 系统的测试 | 第59-64页 |
6.1 环境测试 | 第59-62页 |
6.2 功能测试 | 第62-63页 |
6.3 本章小结 | 第63-64页 |
结论 | 第64-65页 |
参考文献 | 第65-67页 |
附录A Flume中自定义源代码实现 | 第67-69页 |
附录B 自定义UDTF函数的代码实现 | 第69-75页 |
致谢 | 第75-76页 |