基于大数据的网络用户行为分析

摘要	第4-5页
Abstract	第5-6页
1 绪论	第10-16页
1.1 研究背景及意义	第10-12页
1.1.1 社会背景	第10-11页
1.1.2 技术背景	第11页
1.1.3 研究意义	第11-12页
1.2 研究现状	第12-13页
1.3 论文创新点	第13页
1.4 论文组织结构	第13-14页
1.5 本章小结	第14-16页
2 大数据分析平台	第16-30页
2.1 概述	第16页
2.2 分布式文件系统	第16-17页
2.3 Hadoop技术介绍	第17-22页
2.3.1 Hadoop系统框架	第17-18页
2.3.2 Hadoop运行机制	第18-19页
2.3.3 MapReduce编程框架	第19-20页
2.3.4 HDFS分布式文件系统	第20-21页
2.3.5 HBase数据库	第21-22页
2.4 文本聚类相关技术	第22-29页
2.4.1 Web文本聚类概念	第22页
2.4.2 Web文本聚类过程	第22-23页
2.4.3 Web文本聚类技术	第23-28页
2.4.4 文本聚类实现流程	第28-29页
2.5 本章小结	第29-30页
3 系统的需求与概要设计	第30-36页
3.1 需求分析	第30-31页
3.1.1 系统业务需求	第30页
3.1.2 功能需求分析	第30-31页
3.2 系统功能设计	第31-34页
3.2.1 数据预处理模块	第32-33页
3.2.2 数据转存模块	第33页
3.2.3 数据分析模块	第33-34页
3.3 系统总体架构设计	第34-35页
3.3.1 Hadoop集群层	第34页
3.3.2 HDFS存储层	第34-35页
3.3.3 MapReduce计算层	第35页
3.3.4 业务逻辑层	第35页
3.4 本章小结	第35-36页
4 系统详细设计	第36-56页
4.1 日志概述	第36-37页
4.1.1 搜索引擎日志的产生	第36-37页
4.1.2 搜索引擎日志持类型	第37页
4.2 日志数据预处理具体实现	第37-41页
4.2.1 查询关键词分词处理	第38-40页
4.2.2 文本特征向量提取	第40-41页
4.3 数据存储具体实现	第41-45页
4.3.1 设计目标	第41页
4.3.2 HBase数据表设计	第41-43页
4.3.3 转存模块类	第43-45页
4.4 数据分析模块具体实现	第45-54页
4.4.1 用户搜索关键字排行分析	第45-48页
4.4.2 用户点击URL排行分析	第48-49页
4.4.3 相关关键字分析	第49-52页
4.4.4 用户查询主题聚类	第52-54页
4.5 本章小结	第54-56页
5 环境部署与实现	第56-68页
5.1 系统环境说明	第56页
5.1.1 软硬件环境说明	第56页
5.1.2 集群网络环境	第56页
5.2 系统环境搭建	第56-63页
5.2.1 配置本地环境	第57页
5.2.2 设置SSH无密码互联环境	第57-58页
5.2.3 配置Hadoop	第58-63页
5.3 实验与结果分析	第63-67页
5.3.1 用户查询关键字频度排名	第63页
5.3.2 查询主题聚类分析	第63-64页
5.3.3 URL排行分析	第64-65页
5.3.4 URL排名与用户点击分析	第65-66页
5.3.5 用户访问时间段分布	第66-67页
5.4 本章小结	第67-68页
6 总结与展望	第68-70页
参考文献	第70-74页
致谢	第74页