基于可重用组件的海量文本数据处理工具的设计与实现

摘要	第5-6页
ABSTRACT	第6-7页
第1章绪论	第11-14页
1.1 研究背景及意义	第11页
1.2 论文研究的主要内容	第11-12页
1.3 论文结构	第12-14页
第2章相关理论与技术介绍	第14-23页
2.1 Hadoop	第14-15页
2.1.1 简介	第14页
2.1.2 HDFS	第14-15页
2.2 Spark	第15-17页
2.2.1 简介	第15-16页
2.2.2 Spark基础架构	第16-17页
2.2.3 Spark MLlib	第17页
2.3 文本挖掘技术	第17-21页
2.3.1 数据挖掘技术	第17-18页
2.3.2 中文分词	第18页
2.3.3 文本表示	第18-19页
2.3.4 文本聚类	第19-21页
2.3.5 文本分类	第21页
2.4 本章小结	第21-23页
第3章需求分析	第23-31页
3.1 整体需求	第23-24页
3.2 基本功能需求	第24-29页
3.2.1 海量文本数据处理组件	第24-27页
3.2.2 工作流	第27-29页
3.3 非功能性需求	第29页
3.4 本章小结	第29-31页
第4章关键问题研究	第31-52页
4.1 海量文本数据处理组件	第31-43页
4.1.1 海量文本数据的支持	第31页
4.1.2 组件的结构设计	第31-36页
4.1.3 组件的显示与设置	第36-38页
4.1.4 组件的运行	第38-42页
4.1.5 组件的具体类型	第42-43页
4.2 工作流	第43-51页
4.2.1 工作流的结构设计	第43-46页
4.2.2 工作流的显示与编辑	第46-47页
4.2.3 工作流的解析与运行	第47-51页
4.3 本章小结	第51-52页
第5章总体设计	第52-61页
5.1 整体结构	第52-53页
5.2 功能模块	第53-58页
5.2.1 功能模块介绍	第53-57页
5.2.2 工具各功能模块的交互	第57-58页
5.3 关键流程	第58-60页
5.4 本章小结	第60-61页
第6章关键模块的设计与实现	第61-84页
6.1 数据模块的设计与实现	第61-64页
6.1.1 海量数据管理	第61-63页
6.1.2 海量数据处理	第63-64页
6.2 组件模块的设计与实现	第64-77页
6.2.1 组件结构的设计与实现	第64-65页
6.2.2 组件实例化的设计与实现	第65-67页
6.2.3 数据获取组件的设计与实现	第67-69页
6.2.4 文本表示组件的设计与实现	第69-73页
6.2.5 文本分类组件的设计与实现	第73-75页
6.2.6 文本聚类组件的设计与实现	第75-77页
6.3 工作流模块的设计与实现	第77-82页
6.3.1 工作流结构的设计与实现	第77-78页
6.3.2 工作流解析的设计与实现	第78-80页
6.3.3 工作流运行的设计与实现	第80-82页
6.4 用户交互模块的设计与实现	第82-83页
6.4.1 组件的显示与编辑	第82-83页
6.4.2 工作流的显示与编辑	第83页
6.5 本章小结	第83-84页
第7章工具测试	第84-99页
7.1 工具底层平台搭建	第84-85页
7.1.1 Hadoop集群搭建	第84-85页
7.1.2 Spark框架搭建	第85页
7.2 单元测试	第85-94页
7.3 功能测试	第94-97页
7.4 非功能测试	第97-98页
7.5 本章小节	第98-99页
第8章总结与展望	第99-101页
8.1 论文总结	第99页
8.2 工作展望	第99-101页
参考文献	第101-103页
附录	第103-104页
致谢	第104-105页
攻读学位期间发表的学术论文目录	第105页