基于Spark的频繁浏览模式挖掘系统的设计与实现

摘要	第4-5页
Abstract	第5页
第一章绪论	第8-13页
1.1 研究背景	第8-9页
1.2 研究现状	第9-10页
1.2.1 频繁模式挖掘算法的研究现状	第9页
1.2.2 分布式环境下频繁模式挖掘算法研究现状	第9-10页
1.3 研究目标与内容	第10-11页
1.4 论文组织结构	第11-13页
第二章相关技术与研究	第13-24页
2.1 Web日志挖掘	第13-16页
2.1.1 Web挖掘分类	第13-14页
2.1.2 Web使用挖掘	第14-16页
2.2 分布式平台相关技术基础	第16-23页
2.2.1 Hadoop分布式计算平台	第16-19页
2.2.2 Spark分布式计算平台	第19-22页
2.2.3 Hadoop与Spark的关系和特性	第22-23页
2.3 本章小结	第23-24页
第三章浏览行为的集合频繁模式分布式挖掘	第24-35页
3.1 引言	第24页
3.2 浏览行为的集合频繁模式挖掘的挑战	第24-25页
3.3 负载均衡的可扩展FP-Growth分布式算法	第25-30页
3.3.1 负载量估计和均衡分组	第25-28页
3.3.2 基于负载均衡分组的会话序列数据库切分	第28-30页
3.4 基于Spark的FP-Growth负载均衡分布式算法的实现	第30-34页
3.5 本章小结	第34-35页
第四章浏览行为的序列频繁模式分布式挖掘	第35-48页
4.1 引言	第35页
4.2 浏览行为的序列频繁模式挖掘的挑战	第35-36页
4.3 AprioriAll算法的候选序列的生成方式	第36-38页
4.3.1 基于频繁k序列自连接的候选序列生成方式	第36-37页
4.3.2 基于PairWise的候选序列生成方式	第37-38页
4.3.3 两种候选序列生成方式的时空效率对比分析	第38页
4.4 可扩展的AprioriAll分布式算法	第38-45页
4.4.1 AprioriAll分布式算法分析	第39-40页
4.4.2 基于Spark的可扩展AprioriAll分布式算法	第40-45页
4.5 浏览行为的正则频繁模式挖掘分布式挖掘	第45-46页
4.6 本章小结	第46-48页
第五章系统原型设计与实验分析	第48-59页
5.1 引言	第48页
5.2 系统需求分析	第48页
5.3 系统设计	第48-52页
5.3.1 系统功能设计	第48-49页
5.3.2 日志数据预处理	第49-52页
5.4 系统性能测试	第52-58页
5.4.1 实验测试方法	第52-53页
5.4.2 算法准确性测试	第53页
5.4.3 算法速度性能测试	第53-55页
5.4.4 算法扩展性测试	第55-58页
5.5 本章小结	第58-59页
第六章总结和展望	第59-60页
致谢	第60-61页
作者简介	第61-62页
参考文献	第62-64页