基于Spark平台的DBSCAN文本聚类研究

摘要	第4-5页
Abstract	第5页
第1章绪论	第8-14页
1.1 研究背景与意义	第8-9页
1.2 国内外研究现状	第9-12页
1.3 论文组织结构及研究内容	第12-14页
第2章文本聚类及分布式计算相关技术概述	第14-30页
2.1 文本挖掘	第14-16页
2.1.1 文本挖掘定义	第14-15页
2.1.2 文本挖掘的过程	第15-16页
2.2 文本聚类	第16-19页
2.2.1 文本聚类的概念及流程	第16-17页
2.2.2 主要的文本聚类算法	第17-19页
2.3 分布式计算技术	第19-29页
2.3.1 Hadoop分布式计算平台	第20-24页
2.3.2 Spark分布式计算平台	第24-29页
2.4 本章小结	第29-30页
第3章基于词频统计的关键词提取	第30-42页
3.1 英文文本预处理	第30-33页
3.1.1 英文文本预处理流程	第30-31页
3.1.2 文本分词及去除停词	第31-32页
3.1.3 词干提取与词形还原	第32-33页
3.2 文本特征选择	第33-35页
3.3 文本建模	第35-37页
3.4 Python实现基于词频统计的关键词提取	第37-41页
3.5 本章小结	第41-42页
第4章基于Spark的DBSCAN文本聚类并行实现	第42-62页
4.1 文本相似度度量	第42-44页
4.2 传统的DBSCAN聚类算法	第44-49页
4.2.1 DBSCAN算法的相关定义	第44-46页
4.2.2 DBSCAN算法的基本思想	第46-47页
4.2.3 DBSCAN算法的串行实现	第47-49页
4.3 基于Spark的并行DBSCAN算法实现	第49-56页
4.3.1 DBSCAN算法并行化策略	第49-51页
4.3.2 基于Spark的DBSCAN算法并行实现	第51-56页
4.4 文本聚类结果评价	第56页
4.5 实验与分析	第56-61页
4.6 本章小结	第61-62页
第5章科研成果聚类原型系统设计与实现	第62-84页
5.1 系统需求分析	第62-64页
5.1.1 系统目标	第62页
5.1.2 系统功能需求	第62-63页
5.1.3 系统非功能性需求	第63-64页
5.2 原型系统设计	第64-66页
5.2.1 原型系统结构设计及整体处理流程	第64-66页
5.2.2 系统功能模块设计	第66页
5.3 原型系统实现	第66-78页
5.3.1 系统开发环境	第66-67页
5.3.2 Spark分布式集群搭建	第67-71页
5.3.3 主要功能模块的实现	第71-78页
5.4 原型系统应用测试	第78-83页
5.5 本章小结	第83-84页
结论	第84-86页
参考文献	第86-92页
攻读硕士学位期间发表的学术成果	第92-94页
致谢	第94页