基于Spark的Web日志分析处理系统

摘要	第3-4页
abstract	第4页
1 绪论	第7-11页
1.1 研究背景及意义	第7页
1.2 国内外研究现状	第7-8页
1.3 本文主要研究内容	第8-9页
1.4 本文组织结构	第9-11页
2 相关技术概述	第11-21页
2.1 分布式计算技术	第11页
2.2 Spark简介	第11-14页
2.2.1 可弹性伸缩分布式数据集RDD	第12-13页
2.2.2 Spark SQL	第13-14页
2.2.3 Spark Data Frame编程模型	第14页
2.3 分布式文件系统HDFS简介	第14-15页
2.4 开源日志收集系统简介	第15-17页
2.5 文本聚类概念	第17-19页
2.5.1 文本聚类过程	第17-18页
2.5.2 文本聚类技术	第18-19页
2.6 本章小结	第19-21页
3 系统分析与设计	第21-29页
3.1 系统需求分析	第21-22页
3.1.1 Web日志概念	第21页
3.1.2 Web日志分析工具	第21-22页
3.1.3 系统功能模块结构	第22页
3.2 系统体系结构	第22-23页
3.3 系统软件模块结构	第23-28页
3.3.1 日志收集模块	第24-25页
3.3.2 日志存储模块	第25-26页
3.3.3 日志分析模块	第26-27页
3.3.4 数据展示模块	第27-28页
3.4 本章小结	第28-29页
4 系统实现	第29-39页
4.1 日志收集模块	第29-30页
4.2 日志存储模块	第30-32页
4.3 日志分析模块	第32-37页
4.3.1 Web日志数据清理模块	第32-34页
4.3.2 Web日志数据特征提取模块	第34-35页
4.3.3 Web日志数据特征正则化模块	第35页
4.3.4 Web日志数据特征分析模块	第35-37页
4.4 数据展示模块	第37-38页
4.5 本章小结	第38-39页
5 Spark平台搭建	第39-47页
5.1 Spark集群配置	第39页
5.2 Spark分布式集群搭建	第39-45页
5.2.1 Hadoop集群搭建	第39-43页
5.2.2 Spark集群搭建	第43-45页
5.3 Spark基本工作流程	第45页
5.4 本章小结	第45-47页
6 系统部署与运行	第47-61页
6.1 数据来源	第47-48页
6.2 数据导入	第48-50页
6.3 系统部署	第50-52页
6.4 系统运行过程与结果分析	第52-57页
6.5 系统效率分析	第57-59页
6.5.1 单机环境	第57-58页
6.5.2 Spark集群环境	第58-59页
6.6 本章小结	第59-61页
7 结论	第61-63页
致谢	第63-65页
参考文献	第65-66页