摘要 | 第1-11页 |
ABSTRACT | 第11-12页 |
第一章 绪论 | 第12-20页 |
·课题背景与研究意义 | 第12-14页 |
·课题背景 | 第12-13页 |
·研究意义 | 第13-14页 |
·研究现状 | 第14-18页 |
·云计算研究现状 | 第14-16页 |
·文本挖掘研究现状 | 第16-17页 |
·基于云计算的文本挖掘 | 第17-18页 |
·需要进一步研究的问题 | 第18页 |
·课题研究内容 | 第18-19页 |
·论文组织结构 | 第19-20页 |
第二章 基于云计算的文本挖掘原型系统设计 | 第20-37页 |
·云计算关键技术 | 第20-27页 |
·云计算平台--Hadoop搭建方法 | 第27-33页 |
·Hadoop概述 | 第27-28页 |
·Hadoop实验平台及其基本配置 | 第28-33页 |
·云计算文本挖掘系统模型 | 第33-36页 |
·原型系统总体架构设计 | 第33-34页 |
·人机交互子系统 | 第34-35页 |
·挖掘管理子系统 | 第35页 |
·资源管理子系统 | 第35-36页 |
·本章小结 | 第36-37页 |
第三章 文本预处理中停用词表的构造及其过滤算法 | 第37-52页 |
·停用词综述 | 第37-42页 |
·停用词 | 第37-38页 |
·停用词表构造原则及方法 | 第38-40页 |
·停用词的自动抽取 | 第40-42页 |
·停用词表构造方法的改进 | 第42-43页 |
·一种综合停用词表构造方法 | 第43-46页 |
·综合停用词表的构造原理 | 第43-44页 |
·综合停用词表的设计步骤及结果 | 第44-46页 |
·停用词过滤算法设计 | 第46-49页 |
·顺序查找过滤法 | 第46-47页 |
·最近最常使用过滤法 | 第47-48页 |
·哈希表过滤法 | 第48-49页 |
·实验与分析 | 第49-51页 |
·过滤算法分析 | 第49页 |
·实验结果 | 第49-51页 |
·本章小结 | 第51-52页 |
第四章 基于MapReduce的文本预处理方法研究 | 第52-62页 |
·文本预处理流程 | 第52-53页 |
·文本预处理方法 | 第53-56页 |
·文本读取 | 第53页 |
·分词 | 第53-54页 |
·停用词过滤 | 第54页 |
·特征降维 | 第54-56页 |
·文本表示 | 第56页 |
·基于MapReduce的文本预处理方法 | 第56-59页 |
·文本预处理的MapReduce化 | 第57页 |
·文本数据的划分 | 第57-58页 |
·Map详细设计 | 第58页 |
·Reduce详细设计 | 第58-59页 |
·实验分析 | 第59-61页 |
·实验环境 | 第59-60页 |
·实验结果及分析 | 第60-61页 |
·本章小结 | 第61-62页 |
第五章 基于MapReduce的Jarvis-Patrick聚类算法研究 | 第62-78页 |
·文本聚类 | 第62-66页 |
·文本聚类的主要方法 | 第62-64页 |
·聚类算法在文本挖掘中的困难 | 第64-66页 |
·Jarvis-Patrick聚类算法 | 第66-70页 |
·稀疏化邻近度矩阵 | 第67-68页 |
·共享最近邻SNN相似度 | 第68-70页 |
·Jarvis-Patrick聚类算法 | 第70页 |
·基于MapReduce的Jarvis-Patrick算法 | 第70-76页 |
·Jarvis-Patrick算法的MapReduce化 | 第70-72页 |
·数据划分 | 第72页 |
·Map详细设计 | 第72-73页 |
·Reduce详细设计 | 第73-75页 |
·聚类簇提取 | 第75-76页 |
·实验分析 | 第76-77页 |
·本章小结 | 第77-78页 |
第六章 总结与展望 | 第78-80页 |
·总结 | 第78-79页 |
·展望 | 第79-80页 |
致谢 | 第80-81页 |
参考文献 | 第81-87页 |
作者在学期间取得的学术成果 | 第87-88页 |
附录A 攻读硕士学位期间参加科研情况 | 第88页 |