基于Hadoop和R语言的网络自媒体热点挖掘系统的设计与实现

摘要	第5-6页
ABSTRACT	第6-7页
第一章绪论	第11-17页
1.1 研究背景与意义	第11-12页
1.1.1 研究背景	第11-12页
1.1.2 研究意义	第12页
1.2 国内外研究现状	第12-14页
1.2.1 国内研究现状	第12-14页
1.2.2 国外研究现状	第14页
1.3 论文研究工作	第14-15页
1.4 论文结构安排	第15-17页
第二章相关技术理论介绍	第17-31页
2.1 网络爬虫介绍	第17-20页
2.1.1 爬虫原理	第17-19页
2.1.2 Nutch介绍	第19-20页
2.2 Hadoop平台介绍	第20-24页
2.2.1 Hadoop分布式文件系统介绍	第21-22页
2.2.2 MapReduce编程模型	第22-24页
2.3 文本挖掘技术	第24-28页
2.3.1 中文分词	第24-25页
2.3.2 文本分类	第25-27页
2.3.3 文本聚类	第27-28页
2.4 R语言	第28-29页
2.5 SpringMVC介绍	第29-30页
2.6 本章小结	第30-31页
第三章系统需求分析	第31-37页
3.1 系统需求概述	第31页
3.2 系统功能分析	第31-33页
3.3 模块需求分析	第33-36页
3.3.1 数据采集模块	第33-34页
3.3.2 热点挖掘模块	第34-35页
3.3.3 可视与交互模块	第35-36页
3.4 性能需求分析	第36页
3.5 本章小结	第36-37页
第四章自媒体热点挖掘系统的设计	第37-66页
4.1 总体设计方案	第37-40页
4.2 数据采集模块设计	第40-44页
4.2.1 采集模块流程设计	第40-41页
4.2.2 爬虫MapReduce设计	第41-43页
4.2.3 应对反爬虫设计	第43-44页
4.3 文本预处理设计	第44-48页
4.3.1 语料库的选择	第45页
4.3.2 文本预处理	第45-46页
4.3.3 特征向量化	第46-48页
4.4 文本分类算法设计	第48-50页
4.5 热点聚类算法设计	第50-61页
4.5.1 聚类模块分析	第50-51页
4.5.2 热点发现模型	第51-52页
4.5.3 相似度计算	第52-53页
4.5.4 数据准备	第53页
4.5.5 初始质心的选择	第53-57页
4.5.6 K值的选取	第57页
4.5.7 热点挖掘设计	第57-61页
4.6 系统交互设计	第61-65页
4.6.1 组件总体设计	第61-63页
4.6.2 采集组件	第63页
4.6.3 分类组件	第63-64页
4.6.4 聚类组件	第64页
4.6.5 展示组件	第64-65页
4.7 本章小结	第65-66页
第五章自媒体热点挖掘系统的实现	第66-80页
5.1 系统搭建和环境准备	第66-69页
5.1.1 Hadoop部署	第66-68页
5.1.2 Nutch分布式部署	第68-69页
5.1.3 Java语言和R语言的整合	第69页
5.2 数据采集实现	第69-71页
5.3 文本特征化处理实现	第71-73页
5.4 热点挖掘实现	第73-76页
5.5 系统交互部分实现	第76-77页
5.6 系统性能测试	第77-79页
5.6.1 采集性能测试	第77页
5.6.2 热点挖掘测试	第77-79页
5.7 本章小结	第79-80页
第六章总结与展望	第80-82页
6.1 课题总结	第80页
6.2 不足与展望	第80-82页
致谢	第82-83页
参考文献	第83-85页