基于云计算的聚类算法并行化关键技术研究

摘要	第1-7页
Abstract	第7-11页
第1章绪论	第11-16页
·研究背景及意义	第11-12页
·国内外研究现状	第12-14页
·论文的结构和主要工作	第14页
·论文组织结构	第14-16页
第2章 MapReduce 技术架构研究	第16-27页
·MapReduce 简介	第16页
·MapReduce 的组成	第16-18页
·MapReduce 的核心功能	第18-25页
·数据读取过程	第18-20页
·Map 任务阶段	第20页
·Shuffle 过程	第20-24页
·Reduce 任务阶段	第24-25页
·MapReduce Job 的生命周期	第25-26页
·本章小结	第26-27页
第3章文本聚类技术并行化策略研究	第27-37页
·聚类概述	第27页
·文本聚类技术	第27-32页
·Web 文本预处理	第28-29页
·中文分词	第29页
·特征值选择与降维	第29-30页
·基于 VSM 的文本表示	第30-31页
·相似性度量方法	第31-32页
·基于 k-means 算法的文本聚类技术	第32-37页
·k-means 算法的基本思想	第33-35页
·k-means 算法的局限性	第35页
·已有的 k-means 改进算法的优点与不足	第35-37页
第4章基于 MapReduce 的 pk-means++初始化算法研究	第37-49页
·k-means++初始化算法基本思想	第37-38页
·基于 MapReduce 的 pk-means++并行初始化算法设计	第38-43页
·pk-means++算法设计思想	第38-40页
·pk-means++的 MapReduce 实现	第40-43页
·实验与分析	第43-49页
·实验环境	第43-44页
·实验评价方法和评价基准	第44页
·实验准备	第44页
·实验分析	第44-47页
·实验结论	第47-49页
第5章基于 MapReduce 的文本聚类模型研究	第49-62页
·聚类模型架构与设计	第49-50页
·数据预处理模块设计	第50-53页
·TermConutsInDocument 类的 MapReduce 实现	第50-51页
·TermSumAndTFInDocuments 类的 MapReduce 实现	第51-52页
·TermsInCorpusTFIDF 类的 MapReduce 实现	第52-53页
·DocumentVetorBuid 类的 MapReduce 实现	第53页
·基于 MapReduce 的 k-means 聚类模块设计	第53-56页
·实验与结论	第56-62页
·并行算法的性能评价方法	第56页
·实验数据	第56-58页
·实验结果	第58-60页
·实验结论	第60-62页
结论	第62-65页
参考文献	第65-67页
致谢	第67-68页
攻读硕士期间发表（含录用）的学术论文	第68页