大规模网站日志的并行分析技术研究

摘要	第5-6页
Abstract	第6页
第一章绪论	第9-13页
1.1 研究背景	第9-10页
1.2 研究现状	第10-11页
1.2.1 Web日志挖掘的研究现状	第10页
1.2.2 并行计算平台的研究现状	第10-11页
1.3 研究内容	第11-12页
1.4 论文组织结构	第12-13页
第二章相关技术与研究	第13-24页
2.1 Web日志挖掘的相关理论	第13-15页
2.1.1 数据挖掘	第13页
2.1.2 Web挖掘	第13-14页
2.1.3 Web日志挖掘的过程	第14-15页
2.1.4 Web日志挖掘的应用	第15页
2.2 并行计算平台的相关技术	第15-23页
2.2.1 Hadoop计算平台	第16-20页
2.2.2 Spark计算平台	第20-23页
2.2.3 Spark和Hadoop的关系	第23页
2.3 本章小结	第23-24页
第三章 Web日志数据预处理	第24-35页
3.1 引言	第24页
3.2 Web日志	第24-25页
3.3 Web日志预处理流程	第25-28页
3.3.1 数据清洗	第26-27页
3.3.2 用户识别	第27页
3.3.3 会话识别	第27-28页
3.3.4 路径完善	第28页
3.4 事务识别	第28-33页
3.4.1 事务识别的改进	第29-32页
3.4.2 实验分析	第32-33页
3.5 基于MapReduce的日志预处理	第33-34页
3.6 本章小结	第34-35页
第四章集合频繁模式挖掘	第35-49页
4.1 引言	第35页
4.2 集合频繁模式挖掘算法	第35-38页
4.3 近似负载均衡的并行FP-Growth算法	第38-44页
4.3.1 数据分区的依据	第38-39页
4.3.2 负载度量和分组	第39-41页
4.3.3 事务数据库的划分	第41-42页
4.3.4 不同负载均衡策略的比较	第42-44页
4.4 基于MapReduce的近似负载均衡的并行FP-Growth算法	第44-46页
4.5 实验分析	第46-48页
4.6 Web日志集合频繁模式的应用	第48页
4.7 本章小结	第48-49页
第五章序列频繁模式挖掘	第49-58页
5.1 引言	第49页
5.2 序列频繁模式挖掘算法	第49-50页
5.3 AprioriAll算法的并行化	第50-55页
5.3.1 AprioriAll算法的并行化分析	第50-52页
5.3.2 基于Spark的并行AprioriAll算法	第52-54页
5.3.3 分布式环境下的支持度计数	第54-55页
5.4 实验分析	第55-57页
5.5 Web日志序列频繁模式的应用	第57页
5.6 本章小结	第57-58页
第六章总结与展望	第58-59页
6.1 总结	第58页
6.2 未来工作	第58-59页
致谢	第59-60页
参考文献	第60-63页
硕士期间发表的论文	第63页