基于Hadoop的web日志分析系统的研究与实现

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第10-18页
1.1 研究背景和选题意义	第10-12页
1.1.1 研究背景	第10-11页
1.1.2 选题意义	第11-12页
1.2 国内外研究现状	第12-14页
1.3 论文的主要内容	第14-15页
1.4 论文的组织结构	第15-16页
1.5 本章小结	第16-18页
第2章相关理论与技术	第18-26页
2.1 web日志挖掘	第18-20页
2.2 聚类算法	第20-22页
2.3 Hadoop分布式技术	第22-25页
2.3.1 HDFS文件系统	第22-23页
2.3.2 MapReduce计算框架	第23-25页
2.4 本章小结	第25-26页
第3章基于Hadoop的web日志分析系统的设计	第26-40页
3.1 系统总体设计	第26-29页
3.2 web日志预处理模块的设计	第29-36页
3.2.1 web日志格式说明	第29-30页
3.2.2 数据清洗	第30页
3.2.3 用户识别	第30-31页
3.2.4 会话识别	第31页
3.2.5 路径补充	第31-32页
3.2.6 事务识别	第32-33页
3.2.7 基于Hadoop的web日志预处理过程设计	第33-36页
3.3 web日志挖掘模块的设计	第36-37页
3.4 存储模块的设计	第37-38页
3.5 本章小结	第38-40页
第4章基于LTF-KM的分布式聚类算法	第40-56页
4.1 LGTS-FOA算法的提出	第40-49页
4.1.1 混沌映射理论	第40-41页
4.1.2 禁忌搜索思想	第41-42页
4.1.3 果蝇优化算法	第42-44页
4.1.4 LGTS-FOA算法思想	第44-46页
4.1.5 实验结果与分析	第46-49页
4.2 LTF-KM算法的提出	第49-53页
4.2.1 K-mediods算法	第49-50页
4.2.2 LTF-KM算法思想	第50-51页
4.2.3 实验结果与分析	第51-53页
4.3 基于LTF-KM的分布式聚类算法的提出	第53-55页
4.3.1 算法思想	第54-55页
4.3.2 算法流程	第55页
4.4 本章小结	第55-56页
第5章基于Hadoop的web日志分析系统的实现	第56-76页
5.1 系统总体实现	第56-57页
5.2 Hadoop分布式平台搭建	第57-60页
5.3 web日志预处理模块的实现	第60-64页
5.3.1 数据源的选取	第60-61页
5.3.2 数据清洗的实现	第61页
5.3.3 用户识别的实现	第61-62页
5.3.4 会话识别、路径补充和事务识别的实现	第62-64页
5.4 web日志挖掘模块的实现	第64-69页
5.4.1 基于主题访问频次的用户行为建模	第64-66页
5.4.2 基于LTF-KM的分布式聚类MapReduce实现	第66-69页
5.5 系统测试与结果分析	第69-75页
5.5.1 聚类质量对比实验	第70-73页
5.5.2 收敛速度对比实验	第73-74页
5.5.3 集群负载能力对比实验	第74-75页
5.6 本章小结	第75-76页
结论	第76-78页
参考文献	第78-82页
攻读硕士学位期间发表的学术论文	第82-84页
致谢	第84页