基于海量查询日志的数据挖掘及用户行为分析

摘要	第1-6页
ABSTRACT	第6-10页
第一章绪论	第10-16页
·课题研究背景	第10-11页
·国内外研究现状	第11-14页
·分布式技术研究现状	第11-12页
·数据挖掘研究现状	第12-13页
·Web日志挖掘研究现状	第13-14页
·本文研究内容和意义	第14-15页
·论文组织结构	第15-16页
第二章分布式技术和数据挖掘的研究	第16-29页
·GFS	第16-17页
·Google的分布式文件系统—GFS	第16-17页
·GFS架构	第17页
·Hadoop	第17-22页
·HDFS	第18-19页
·MapReduce编程框架	第19-21页
·MapReduce执行流程	第21-22页
·数据挖掘	第22-25页
·数据挖掘的定义	第23页
·数据挖掘的流程	第23-24页
·数据挖掘的主要方法	第24-25页
·数据挖掘的应用和挑战	第25页
·Web日志挖掘	第25-28页
·Web挖掘分类	第25-27页
·Web日志挖掘流程	第27-28页
·本章小结	第28-29页
第三章日志预处理技术	第29-38页
·数据清洗	第29-30页
·用户识别	第30-31页
·会话识别	第31-33页
·路径补充和事务识别	第33-35页
·基于Hadoop的日志预处理实现	第35-37页
·本章小结	第37-38页
第四章基于用户行为的查询日志挖掘	第38-55页
·基于日志的用户聚类分析	第38-39页
·日志挖据系统的设计	第39-40页
·日志的数据挖掘	第40-54页
·Mine模块的功能	第40-41页
·基于日志的用户行为建模	第41-42页
·基于MapReduce的关键词和URL聚类	第42-44页
·用户的特征向量表示及相似度计算	第44-46页
·K-means算法及其分布式实现	第46-51页
·系统测试及结果分析	第51-54页
·本章小结	第54-55页
第五章基于海量日志的用户行为分析	第55-62页
·日志来源及用户搜索行为分析	第55-56页
·日志量和用户量的分析	第56-57页
·用户查询词的分析	第57-59页
·查询词的数量分析	第57-58页
·查询词的字符分析	第58-59页
·查询词的长度分析	第59页
·用户点击URL的分析	第59-60页
·URL rank与用户点击顺序的分析	第60-61页
·本章小结	第61-62页
第六章总结和展望	第62-64页
·本文主要工作	第62页
·未来工作	第62-64页
参考文献	第64-66页
致谢	第66页