基于Hadoop/MongoDB的Web日志挖掘技术研究

摘要	第5-6页
Abstract	第6-7页
第1章绪论	第12-19页
1.1 研究背景与意义	第12-14页
1.2 国内外研究现状	第14-17页
1.2.1 Web日志挖掘国内外研究现状	第14-16页
1.2.2 云计算国内外研究现状	第16-17页
1.3 本文的研究内容及章节安排	第17-19页
第2章 Web日志挖掘基本理论	第19-27页
2.1 WEB日志文件结构	第19-20页
2.2 日志文件的位置	第20-21页
2.2.1 Web服务器日志	第20-21页
2.2.2 Web代理服务器日志	第21页
2.2.3 客户端浏览器日志	第21页
2.3 WEB服务器日志类型	第21-23页
2.3.1 Error日志	第22页
2.3.2 Access日志	第22-23页
2.4 WEB日志的预处理	第23-26页
2.4.1 数据清洗	第23-24页
2.4.2 用户和会话识别	第24-25页
2.4.3 数据转换	第25页
2.4.4 路径补充	第25-26页
2.5 小结	第26-27页
第3章 Hadoop基本框架与MongoDB	第27-36页
3.1 MAPREDUCE编程模型	第27-28页
3.2 HADOOP基本框架介绍	第28-32页
3.2.1 Hadoop的来源	第28-29页
3.2.2 Hadoop基本框架	第29-30页
3.2.3 Hadoop的MapReduce框架	第30-32页
3.2.4 Hadoop的性有能	第32页
3.3 MONGODB	第32-35页
3.3.1 传统的关系数据库的缺陷	第32-33页
3.3.2 NoSQL数据库	第33-34页
3.3.3 MongoDB	第34页
3.3.4 MongoDB的性能	第34-35页
3.4 小结	第35-36页
第4章基于Hadoop/MongoDB的Web日志挖掘算法	第36-45页
4.1 关联规则	第36-38页
4.2 关联规则的分类	第38页
4.3 关联规则挖掘算法研究	第38-41页
4.3.1 Apriori算法	第38-40页
4.3.2 其它关联规则挖掘算法	第40-41页
4.4 基于HADOOP/MONGODB的WEB日志挖掘算法	第41-44页
4.4.1 算法的提出	第41-42页
4.4.2 算法的基本思想	第42-43页
4.4.3 算法在Hadoop和MongoDB上的实现	第43-44页
4.5 小结	第44-45页
第5章 ApriorHM算法实现	第45-53页
5.1 系统总体设计方案	第45-46页
5.2 算法输入数据的收集	第46页
5.3 WEB日志的预处理	第46-50页
5.4 挖掘算法的实现	第50-52页
5.5 小结	第52-53页
第6章 AprioriHM算法的验证	第53-60页
6.1 实验环境	第53-55页
6.1.1 Hadoop集群的搭建和配置	第53-55页
6.1.2 MongoDB的配置	第55页
6.2 实验过程	第55-56页
6.2.1 对原始数据小文件的处理	第56页
6.2.2 算法运行过程	第56页
6.3 实验结果分析	第56-59页
6.3.1 AprioriHM算法与Apriori算法的比较	第56-58页
6.3.2 AprioriHM算法可扩充性	第58-59页
6.4 小结	第59-60页
结论	第60-62页
参考文献	第62-66页
致谢	第66-67页
附录A 攻读学位期间所发表的学术论文列表	第67页