基于Hadoop平台的文本分类应用研究

摘要	第3-4页
abstract	第4-5页
第一章绪论	第9-16页
1.1 课题研究的背景及意义	第9-10页
1.2 国内外研究现状	第10-13页
1.2.1 文本分类算法的研究现状	第10-11页
1.2.2 海量数据处理研究现状	第11-13页
1.3 本文的主要研究内容	第13-14页
1.4 论文的组织	第14-16页
第二章 Hadoop平台的研究和搭建	第16-34页
2.1 Hadoop平台概述	第16-17页
2.1.1 Hadoop简介及特点	第16页
2.1.2 Hadoop生态系统	第16-17页
2.2 HDFS	第17-21页
2.2.1 HDFS的相关概念	第17-18页
2.2.2 HDFS的体系结构	第18-20页
2.2.3 HDFS的特点及局限性	第20-21页
2.3 MapReduce	第21-24页
2.3.1 MapReduce原理	第21-22页
2.3.2 MapReduce作业执行流程	第22-23页
2.3.3 MapReduce的错误处理机制	第23-24页
2.4 MapReduce V2：YARN	第24-26页
2.5 Hadoop环境的搭建	第26-33页
2.6 本章小结	第33-34页
第三章文本分类原理与实现	第34-49页
3.1 文本分类概述	第34-35页
3.2 文本预处理	第35-37页
3.2.1 中文文本分词	第35-36页
3.2.2 中文分词难题	第36页
3.2.3 中文分词工具	第36-37页
3.3 文本表示	第37-41页
3.3.1 文本表示模型	第37页
3.3.2 特征词权重计算	第37-38页
3.3.3 文本特征降维	第38-41页
3.4 文本相似度计算	第41页
3.5 分类算法	第41-43页
3.5.1 朴素贝叶斯	第41-42页
3.5.2 KNN算法	第42-43页
3.6 评价指标	第43-44页
3.7 单机文本分类器的实现	第44-48页
3.7.1 贝叶斯文本分类器	第44-45页
3.7.2 KNN文本分类器	第45-47页
3.7.3 实验结果	第47-48页
3.8 本章小结	第48-49页
第四章基于Hadoop平台的并行化文本分类	第49-63页
4.1 并行算法设计的关键	第49-50页
4.2 MapReduce程序的编写	第50-55页
4.2.1 SequenceFile	第50页
4.2.2 一个MapReduce程序的解读	第50-53页
4.2.3 多个MapReduce程序的连接	第53-55页
4.3 并行分类器的设计和实现	第55-62页
4.3.1 并行化贝叶斯分类器	第56-59页
4.3.2 并行化KNN分类器	第59-62页
4.4 本章小结	第62-63页
第五章基于HowNet的KNN文本分类及其并行化研究	第63-79页
5.1 HowNet降维方法	第63-66页
5.1.1 HowNet简介	第63-64页
5.1.2 映射特征词到概念的关键	第64-65页
5.1.3 特征向量到概念向量的映射算法	第65-66页
5.2 PCA降维方法	第66-72页
5.2.1 PCA降维原理	第66-70页
5.2.2 PCA的实现	第70-72页
5.3 基于HowNet降维的并行KNN分类器	第72-76页
5.3.1 训练前的准备工作	第72页
5.3.2 训练过程的5个MapReduce程序	第72-74页
5.3.3 测试前的准备工作	第74页
5.3.4 测试过程的3个MapReduce程序	第74-76页
5.4 实验结果	第76-77页
5.4.1 单机实验	第76-77页
5.4.2 在Hadoop环境下的实验	第77页
5.5 本章小结	第77-79页
第六章总结与展望	第79-80页
参考文献	第80-84页
攻读硕士学位期间主要的研究成果	第84-85页
致谢	第85-87页
浙江师范大学学位论文诚信承诺书	第87-88页
附件：基于HowNet降维的KNN并行分类器程序	第88页