基于互联网访问日志的用户特征分析研究
摘要 | 第1-7页 |
ABSTRACT | 第7-11页 |
第一章 绪论 | 第11-17页 |
·课题的研究背景 | 第11-12页 |
·用户特征分析的国内外研究现状 | 第12-14页 |
·国外研究状况 | 第13页 |
·国内研究状况 | 第13-14页 |
·本文的主要研究内容 | 第14-15页 |
·本文的组织结构 | 第15-16页 |
·本章小结 | 第16-17页 |
第二章 相关技术研究 | 第17-29页 |
·WEB挖掘概述 | 第17-23页 |
·WEB挖掘的概念及特点 | 第17-18页 |
·WEB挖掘分类 | 第18-22页 |
·WEB日志挖掘的主要方法 | 第22-23页 |
·Hadoop相关技术 | 第23-28页 |
·Hadoop | 第23-26页 |
·Hive | 第26-27页 |
·Mahout | 第27-28页 |
·本章小结 | 第28-29页 |
第三章 基于MapReduce的用户特征项提取 | 第29-39页 |
·互联网访问日志预处理 | 第29-30页 |
·访问日志清洗 | 第29页 |
·用户识别 | 第29-30页 |
·网页内容抓取与清洗 | 第30页 |
·用户特征项相关介绍 | 第30-32页 |
·文本的特征项 | 第30-32页 |
·用户的特征项 | 第32页 |
·基于MapReduce的用户特征项提取算法设计 | 第32-38页 |
·本章小结 | 第38-39页 |
第四章 基于Hadoop平台的相似特征用户挖掘 | 第39-46页 |
·文本聚类简介 | 第39-41页 |
·常用的文本聚类算法 | 第39-40页 |
·K-means聚类 | 第40-41页 |
·相似特征用户挖掘算法 | 第41-45页 |
·用户特征相似性度量 | 第41-42页 |
·基于Hadoop平台的相似特征用户挖掘算法设计 | 第42-45页 |
·本章小结 | 第45-46页 |
第五章 用户特征分析系统设计与实现 | 第46-60页 |
·系统整体架构 | 第46-47页 |
·日志预处理模块详细设计与实现 | 第47-54页 |
·互联网访问日志采集 | 第47-48页 |
·访问日志数据清洗 | 第48-49页 |
·用户识别 | 第49-54页 |
·文档预处理模块详细设计与实现 | 第54-55页 |
·网页抓取与清洗 | 第54-55页 |
·文本分词 | 第55页 |
·用户特征分析模块设计与实现 | 第55-59页 |
·用户特征分析模块整体架构 | 第56页 |
·基于MapReduce的用户特征提取算法的实现 | 第56-59页 |
·本章小结 | 第59-60页 |
第六章 总结与展望 | 第60-62页 |
·总结 | 第60-61页 |
·展望 | 第61-62页 |
参考文献 | 第62-66页 |
攻读学位期间的研究成果目录 | 第66-67页 |
致谢 | 第67页 |