摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第8-14页 |
1.1 研究背景与意义 | 第8-9页 |
1.2 国内外研究现状 | 第9-12页 |
1.3 论文组织结构及研究内容 | 第12-14页 |
第2章 文本聚类及分布式计算相关技术概述 | 第14-30页 |
2.1 文本挖掘 | 第14-16页 |
2.1.1 文本挖掘定义 | 第14-15页 |
2.1.2 文本挖掘的过程 | 第15-16页 |
2.2 文本聚类 | 第16-19页 |
2.2.1 文本聚类的概念及流程 | 第16-17页 |
2.2.2 主要的文本聚类算法 | 第17-19页 |
2.3 分布式计算技术 | 第19-29页 |
2.3.1 Hadoop分布式计算平台 | 第20-24页 |
2.3.2 Spark分布式计算平台 | 第24-29页 |
2.4 本章小结 | 第29-30页 |
第3章 基于词频统计的关键词提取 | 第30-42页 |
3.1 英文文本预处理 | 第30-33页 |
3.1.1 英文文本预处理流程 | 第30-31页 |
3.1.2 文本分词及去除停词 | 第31-32页 |
3.1.3 词干提取与词形还原 | 第32-33页 |
3.2 文本特征选择 | 第33-35页 |
3.3 文本建模 | 第35-37页 |
3.4 Python实现基于词频统计的关键词提取 | 第37-41页 |
3.5 本章小结 | 第41-42页 |
第4章 基于Spark的DBSCAN文本聚类并行实现 | 第42-62页 |
4.1 文本相似度度量 | 第42-44页 |
4.2 传统的DBSCAN聚类算法 | 第44-49页 |
4.2.1 DBSCAN算法的相关定义 | 第44-46页 |
4.2.2 DBSCAN算法的基本思想 | 第46-47页 |
4.2.3 DBSCAN算法的串行实现 | 第47-49页 |
4.3 基于Spark的并行DBSCAN算法实现 | 第49-56页 |
4.3.1 DBSCAN算法并行化策略 | 第49-51页 |
4.3.2 基于Spark的DBSCAN算法并行实现 | 第51-56页 |
4.4 文本聚类结果评价 | 第56页 |
4.5 实验与分析 | 第56-61页 |
4.6 本章小结 | 第61-62页 |
第5章 科研成果聚类原型系统设计与实现 | 第62-84页 |
5.1 系统需求分析 | 第62-64页 |
5.1.1 系统目标 | 第62页 |
5.1.2 系统功能需求 | 第62-63页 |
5.1.3 系统非功能性需求 | 第63-64页 |
5.2 原型系统设计 | 第64-66页 |
5.2.1 原型系统结构设计及整体处理流程 | 第64-66页 |
5.2.2 系统功能模块设计 | 第66页 |
5.3 原型系统实现 | 第66-78页 |
5.3.1 系统开发环境 | 第66-67页 |
5.3.2 Spark分布式集群搭建 | 第67-71页 |
5.3.3 主要功能模块的实现 | 第71-78页 |
5.4 原型系统应用测试 | 第78-83页 |
5.5 本章小结 | 第83-84页 |
结论 | 第84-86页 |
参考文献 | 第86-92页 |
攻读硕士学位期间发表的学术成果 | 第92-94页 |
致谢 | 第94页 |