娱乐消费大数据分析系统的研究与实现

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第12-15页
1.1 研究背景与意义	第12页
1.2 国内外研究现状	第12-13页
1.3 论文主要工作与组织结构安排	第13-15页
1.3.1 主要工作	第13-14页
1.3.2 论文结构安排	第14-15页
第二章相关技术介绍	第15-19页
2.1 Hadoop	第15页
2.2 Spark大数据处理框架及其生态系统	第15-17页
2.2.1 Spark core	第15-16页
2.2.2 Spark Streaming	第16页
2.2.3 Spark SQL	第16页
2.2.4 MLlib	第16-17页
2.2.5 GraphX	第17页
2.3 scala语言	第17页
2.4 Zookeeper	第17页
2.5 Hive	第17-18页
2.6 MySQL	第18页
2.7 本章小结	第18-19页
第三章娱乐消费大数据分析系统的设计	第19-32页
3.1 系统需求分析	第19页
3.2 系统总体设计	第19-21页
3.3 获取数据算法	第21-23页
3.3.1 获取数据算法架构	第21页
3.3.2 获取数据算法运行流程	第21-23页
3.4 聚合统计模块设计	第23-25页
3.5 随机抽取模块设计	第25页
3.6 Top10热门品类模块设计	第25-26页
3.7 Top10活跃session模块设计	第26-27页
3.8 数据库设计	第27-31页
3.8.1 数据库总体设计	第27页
3.8.2 数据库表设计	第27-31页
3.8.3 数据处理过程	第31页
3.9 本章小结	第31-32页
第四章娱乐消费大数据分析系统的实现	第32-40页
4.1 Spark开发环境及其分布式集群搭建	第32-35页
4.1.1 硬件系统要求	第32页
4.1.2 构造分布式Hadoop集群	第32-33页
4.1.3 构造分布式Spark集群	第33页
4.1.4 安装Hive	第33-34页
4.1.5 安装MySQL	第34页
4.1.6 安装Zookeeper	第34-35页
4.2 获取数据算法的实现	第35-36页
4.2.1 调度器	第35页
4.2.2 URL管理器	第35-36页
4.2.3 网页下载器	第36页
4.2.4 网页解析器	第36页
4.2.5 网页输出器	第36页
4.3 聚合统计模块的实现	第36-37页
4.4 随机抽取模块的实现	第37-38页
4.5 Top10热门品类模块的实现	第38-39页
4.6 Top10活跃session模块的实现	第39页
4.7 本章小结	第39-40页
第五章系统测试	第40-44页
5.1 功能性测试	第40-42页
5.1.1 生成模拟数据	第40-41页
5.1.2 聚合统计模块测试	第41页
5.1.3 随机抽取模块测试	第41页
5.1.4 Top10热门品类模块测试	第41-42页
5.1.5 Top10活跃sesssion模块测试	第42页
5.2 非功能性测试	第42-43页
5.3 本章小结	第43-44页
第六章总结与展望	第44-45页
参考文献	第45-47页
致谢	第47页