云框架下的文本挖掘算法并行化研究

致谢	第4-5页
摘要	第5-6页
Abstract	第6-7页
1 绪论	第14-18页
1.1 研究背景和意义	第14-15页
1.2 国内外研究现状	第15-17页
1.3 论文的主要工作	第17页
1.4 论文内容的组织	第17-18页
2 大规模数据并行处理技术	第18-26页
2.1 云计算概述	第18页
2.2 云计算框架Hadoop	第18-21页
2.3 云计算框架Spark	第21-24页
2.4 Spark和Hadoop的比较	第24-25页
2.5 本章小结	第25-26页
3 文本聚类与分类相关技术	第26-36页
3.1 文本预处理	第26-29页
3.2 文本表示	第29-30页
3.3 文本聚类	第30-32页
3.4 文本分类	第32-35页
3.5 本章小结	第35-36页
4 基于Spark的大规模文本K-Means并行聚类算法	第36-44页
4.1 串行K-Means聚类算法	第36-37页
4.2 K-Means算法并行化可行性分析	第37-38页
4.3 基于Hadoop的K-Means聚类算法并行化	第38-39页
4.4 基于Spark的K-Means聚类算法并行化	第39-42页
4.5 两种并行化算法的比较	第42-43页
4.6 本章小结	第43-44页
5 基于Spark的朴素贝叶斯文本分类并行化研究	第44-56页
5.1 朴素贝叶斯分类	第44-48页
5.2 朴素贝叶斯算法并行化可行性分析	第48-49页
5.3 基于Hadoop的朴素贝叶斯文本分类并行化	第49-51页
5.4 基于Spark的朴素贝叶斯文本分类并行化	第51-55页
5.5 两种并行化算法的比较	第55页
5.6 本章小结	第55-56页
6 实验测试与分析	第56-64页
6.1 实验环境	第56-58页
6.2 实验文本数据	第58-59页
6.3 并行计算性能指标	第59页
6.4 K-Means文本聚类实验	第59-62页
6.5 朴素贝叶斯文本分类实验	第62-63页
6.6 本章小结	第63-64页
7 总结与展望	第64-66页
7.1 结论	第64页
7.2 展望	第64-66页
参考文献	第66-70页
作者简历	第70-72页
学位论文数据集	第72页