互联网访问数据预处理研究与应用--基于Hadoop

摘要	第1-7页
ABSTRACT	第7-11页
第一章绪论	第11-16页
·选题背景	第11-12页
·研究意义	第12-13页
·相关研究现状	第13-14页
·本文的工作	第14-15页
·本文的组织结构	第15-16页
第二章 Web日志挖掘和Web日志预处理	第16-24页
·Web日志挖掘	第16-19页
·Web日志挖掘概述	第16页
·Web日志挖掘的数据源	第16-17页
·Web日志挖掘的过程	第17-19页
·Web日志预处理	第19-23页
·数据清理	第19-20页
·会话识别	第20页
·用户识别	第20-21页
·自然语言处理	第21-23页
·本章小结	第23-24页
第三章 Hadoop平台概述	第24-34页
·Hadoop平台背景	第24-27页
·云计算概述	第24页
·Google云计算平台介绍	第24-25页
·Hadoop平台的产生	第25-26页
·Hadoop的master/slave架构	第26-27页
·Hadoop分布式文件系统HDFS	第27-31页
·HDFS的结构	第28-29页
·HDFS的工作流程	第29-30页
·HDFS的特点	第30-31页
·Hadoop的MapReduce计算构架	第31-33页
·一般的MapReduce模型	第31页
·Hadoop MapReduce的实现	第31-33页
·Hadoop MapReduce的特点	第33页
·本章小结	第33-34页
第四章预处理在Hadoop中的分析设计	第34-45页
·Web日志预处理流程设计	第34页
·数据清理	第34-35页
·用户识别设计	第35-42页
·会话识别	第37-39页
·Cookie提取	第39-41页
·会话合并	第41-42页
·用户标记	第42页
·关键词提取设计	第42-44页
·搜索内容提取	第42-43页
·关键词提取	第43-44页
·本章小结	第44-45页
第五章预处理在Hadoop中的实现	第45-56页
·运行环境配置	第45-47页
·运行平台搭建	第45页
·Hadoop环境配置	第45-47页
·Hadoop实现	第47-54页
·代码框架	第47-49页
·用户识别实现	第49-53页
·关键词提取实现	第53-54页
·实验结果	第54-55页
·实验数据	第54页
·实验结果	第54-55页
·本章小结	第55-56页
第六章总结与展望	第56-58页
·全文总结	第56-57页
·研究展望	第57-58页
参考文献	第58-61页
攻读硕士学位期间发表的学术论文和参与的项目	第61-62页
致谢	第62页