基于Hadoop的Web日志的分析平台的设计与实现

摘要	第4-6页
ABSTRACT	第6-7页
第一章绪论	第10-19页
1.1 研究背景	第10-11页
1.2 研究目标与意义	第11-12页
1.3 研究现状	第12-16页
1.3.1 分布式技术研究现状	第12-13页
1.3.2 Web日志挖掘研究现状	第13-14页
1.3.3 聚类算法的研究	第14-16页
1.4 前人工作研究成果综述	第16-18页
1.5 论文组织结构	第18页
1.6 本章小结	第18-19页
第二章分布式技术与Web日志挖掘的研究	第19-30页
2.1 分布式技术的研究	第19-25页
2.1.1 GFS	第19-21页
2.1.2 Hadoop生态系统	第21-22页
2.1.3 HDFS	第22-24页
2.1.4 MapReduce编程模型	第24-25页
2.2 数据挖掘技术的研究	第25-27页
2.2.1 数据挖掘的定义	第25-26页
2.2.2 数据挖掘的流程	第26-27页
2.2.3 数据挖掘的应用与挑战	第27页
2.3 Web日志挖掘	第27-29页
2.3.1 Web挖掘的种类	第28页
2.3.2 Web日志挖掘的流程	第28-29页
2.4 本章小结	第29-30页
第三章 Web日志预处理设计	第30-39页
3.1 Web日志预处理过程	第30-35页
3.1.1 数据清理	第30-32页
3.1.2 用户识别	第32-33页
3.1.3 会话识别	第33页
3.1.4 路径补充	第33-35页
3.2 基于Hadoop的Web日志预处理的设计	第35-38页
3.2.1 Map的设计	第35-36页
3.2.2 Reduce的设计	第36-38页
3.3 本章小结	第38-39页
第四章系统总体设计与实现	第39-51页
4.1 系统的整体框架	第39-43页
4.1.1 Web日志预处理	第39-40页
4.1.2 Web日志存储模块	第40-41页
4.1.3 Web日志挖掘模块	第41-43页
4.2 Web日志聚类算法的设计	第43-50页
4.2.1 K-means聚类算法的概述	第43-46页
4.2.2 基于日志的用户行为建模	第46-47页
4.2.3 改进的K-means算法设计与实现	第47-50页
4.3 本章小结	第50-51页
第五章系统的测试与结果分析	第51-59页
5.1 系统的测试	第51-56页
5.1.1 测试环境	第51页
5.1.2 软件安装	第51-55页
5.1.3 系统运行	第55-56页
5.2 系统运行结果分析	第56-58页
5.2.1 系统的功能测试结果分析	第56-57页
5.2.2 系统的性能测试	第57页
5.2.3 测试结果分析	第57-58页
5.3 本章小结	第58-59页
第六章总结与展望	第59-61页
6.1 工作总结	第59-60页
6.2 工作展望	第60-61页
参考文献	第61-64页
致谢	第64-65页
作者攻读学位期间发表的学术论文目录	第65页