基于MapReduce模型文本分类算法的研究

摘要	第1-5页
ABSTRACT	第5-11页
第1章绪论	第11-14页
·研究背景和意义	第11页
·研究现状	第11-12页
·研究内容及其组织结构	第12-14页
第2章 MapReduce 模型及文本分类概述	第14-21页
·MapReduce 模型	第14-17页
·MapReduce 作业运行机制	第14-16页
·MapReduce 中 shuffle 和排序	第16-17页
·文本分类	第17-20页
·特征选择方法	第17-19页
·权重计算 TFIDF 改进方法	第19-20页
·本章总结	第20-21页
第3章 Hadoop 平台下倒排索引树的研究	第21-36页
·数据处理思想	第21-24页
·数据划分思想	第21-22页
·数据抽样思想	第22-23页
·数据变化思想	第23-24页
·数据增量思想	第24页
·倒排索引树并行化	第24-31页
·倒排索引树结构	第25-27页
·倒排索引树算法	第27-30页
·倒排索引树剪枝策略	第30-31页
·增量倒排索引树并行化	第31-35页
·增量倒排索引树并行化设计	第31-33页
·增量倒排索引树实现的关键技术	第33-35页
·本章总结	第35-36页
第4章 Hadoop 平台下基于倒排索引树的文本分类算法	第36-56页
·文本预处理	第36-38页
·算法输入要求	第36-37页
·Map 阶段	第37页
·Reduce 阶段	第37-38页
·分类模型训练	第38-39页
·Map 阶段	第38页
·Reduce 阶段	第38-39页
·训练模型生成阶段	第39页
·训练样本获得	第39-44页
·K-Means 算法主要思想	第39-40页
·Hadoop 平台下 K-means 增量算法	第40-42页
·Hadoop 平台下基于 MapReduce 的 Bagging 增量算法	第42-44页
·贝叶斯算法	第44-53页
·Hadoop 平台下基于倒排索引树的朴素贝叶斯算法	第44-48页
·Hadoop 平台下基于倒排索引树的局部朴素贝叶斯算法	第48-53页
·分类结果评价	第53-55页
·Map 阶段	第54页
·Reduce 阶段	第54-55页
·本章总结	第55-56页
第5章实验与分析	第56-65页
·实验环境搭建	第56-59页
·集群机器环境配置	第56-58页
·Hadoop 安装及其配置	第58-59页
·实验结果分析	第59-64页
·中英文数据集描述	第59-60页
·算法性能分析	第60-64页
·本章总结	第64-65页
第6章结论与展望	第65-66页
·结论	第65页
·展望	第65-66页
致谢	第66-67页
参考文献	第67-69页
攻读硕士学位期间学术论文及科研情况	第69-70页