摘要 | 第4-6页 |
Abstract | 第6-7页 |
缩略语 | 第14-15页 |
第1章 绪论 | 第15-21页 |
1.1 课题研究背景和研究意义 | 第15-16页 |
1.1.1 研究背景 | 第15-16页 |
1.2 国内外研究现状 | 第16-19页 |
1.2.1 文本分类算法的研究现状 | 第16-17页 |
1.2.2 海量数据处理的研究现状 | 第17-19页 |
1.3 本文主要的研究内容 | 第19页 |
1.4 论文的组织 | 第19-21页 |
第2章 Hadoop平台的研究 | 第21-29页 |
2.1 Hadoop平台概述 | 第21-22页 |
2.1.1 Hadoop平台的简介以及特点 | 第21页 |
2.1.2 Hadoop生态系统 | 第21-22页 |
2.2 HDFS | 第22-24页 |
2.2.1 HDFS的相关概念 | 第22-24页 |
2.3 Map Reduce | 第24-27页 |
2.3.1 Map Reduce设计原理 | 第24-25页 |
2.3.2 Map Reduce作业流程 | 第25-27页 |
2.3.3 Map Reduce的容错性 | 第27页 |
2.4 本章小结 | 第27-29页 |
第3章 文本分类的基本原理 | 第29-45页 |
3.1 文本分类概述 | 第29-30页 |
3.2 文本预处理 | 第30-31页 |
3.3 文本表示 | 第31-32页 |
3.3.1 空间向量模型 | 第31-32页 |
3.3.2 权重计算 | 第32页 |
3.3.3 TFIDF算法 | 第32页 |
3.4 特征提取 | 第32-35页 |
3.4.1 文本频率 | 第33页 |
3.4.2 互信息 | 第33-34页 |
3.4.3 信息增益 | 第34页 |
3.4.4 卡方统计 | 第34-35页 |
3.5 基于Map Reduce的文本预处理方法实现 | 第35-41页 |
3.5.1 文本库预处理 | 第35页 |
3.5.2 文本库在HDFS中的存储形式 | 第35-38页 |
3.5.3 基于Map Reduce的特征选择算法 | 第38-40页 |
3.5.4 基于Map Reduce的TFIDF算法 | 第40-41页 |
3.6 本章实验 | 第41-43页 |
3.7 本章小结 | 第43-45页 |
第4章 一种改进的SKNN文本分类算法研究 | 第45-57页 |
4.1 KNN分类算法概述 | 第45-46页 |
4.2 KNN算法的缺点 | 第46页 |
4.3 KNN算法的改进 | 第46-47页 |
4.4 基于子集的SKNN分类算法 | 第47-50页 |
4.4.1 算法思想概述 | 第47-48页 |
4.4.2 算法分析 | 第48-50页 |
4.5 基于子集的SKNN分类算法的改进 | 第50-51页 |
4.6 本章实验 | 第51-55页 |
4.6.1 硬件环境 | 第51页 |
4.6.2 软件环境 | 第51-52页 |
4.6.3 实验数据 | 第52-53页 |
4.6.4 模块设计 | 第53页 |
4.6.5 实验结果及分析 | 第53-55页 |
4.7 本章小结 | 第55-57页 |
第5章 基于Hadoop平台的改进的SKNN文本分类算法设计与实现 | 第57-71页 |
5.1 系统架构 | 第57-58页 |
5.2 Hadoop集群及集群监控模块的搭建 | 第58-61页 |
5.2.1 硬件环境 | 第58页 |
5.2.2 软件环境 | 第58页 |
5.2.3 Hadoop系统结构 | 第58-60页 |
5.2.4 Hadoop集群环境配置 | 第60-61页 |
5.2.5 Hadoop集群的安装与配置 | 第61页 |
5.3 基于Hadoop平台的改进的SKNN分类算法的实现 | 第61-64页 |
5.3.1 算法实现分析 | 第61-64页 |
5.4 本章实验及分析 | 第64-70页 |
5.4.1 实验材料 | 第64-65页 |
5.4.2 改进的SKNN分类算法分类速度和准确率实验 | 第65-67页 |
5.4.3 参数K和S对改进的SKNN分类算法的影响 | 第67-70页 |
5.5 本章小结 | 第70-71页 |
第6章 总结与展望 | 第71-73页 |
6.1 全文总结 | 第71页 |
6.2 工作展望 | 第71-73页 |
致谢 | 第73-75页 |
参考文献 | 第75-79页 |
攻读硕士学位期间的研究成果 | 第79页 |