面向聚类分析的迭代MapReduce计算模型研究

摘要	第1-4页
ABSTRACT	第4-7页
第一章绪论	第7-12页
·研究背景以及意义	第7-8页
·国内外研究现状以及存在的问题	第8-10页
·国内外研究现状	第8-10页
·国内外研究存在的问题	第10页
·本文研究内容	第10-11页
·本文章节组织	第11-12页
第二章相关技术综述	第12-15页
·Hadoop 分布式计算环境	第12-13页
·Hadoop	第12页
·HDFS	第12-13页
·HBase 分布式数据库	第13页
·HBase	第13页
·Zookeeper	第13页
·Mahout 分布式算法库	第13-15页
第三章数据规模对迭代 MapReduce 效率的影响	第15-20页
·MapReduce 计算模型与迭代问题	第15-17页
·MapReduce 的单程初衷	第15-16页
·MapReduce 的迭代困境	第16-17页
·MapReduce 迭代效率与数据规模	第17-20页
·不同规模数据的划分方式	第17-18页
·不同规模数据的优化需求	第18-20页
第四章面向中等规模数据的 MapCombine 方案	第20-36页
·MapCombine 设计方案概述	第20-25页
·设计思路	第20-21页
·加速模型	第21-23页
·系统架构	第23-24页
·系统数据流	第24-25页
·静态数据载入方式的优化	第25-28页
·数据本地化传输	第25-26页
·Combiner 的缓存数据功能	第26-27页
·Combiner 的均衡负载功能	第27-28页
·数据规模的限制	第28页
·以单程模式完成迭代	第28-32页
·Controller 的迭代调度功能	第28-29页
·标志位迭代控制算法	第29-30页
·更进一步的负载均衡	第30-31页
·故障恢复能力	第31-32页
·实验结果展示及分析	第32-36页
·实验环境及实验数据	第32-33页
·实验结果展示及分析	第33-36页
第五章面向大规模数据的 CycleMap 方案	第36-50页
·CycleMap 设计方案概述	第36-41页
·设计思路	第36-37页
·加速模型	第37-39页
·系统架构	第39-40页
·系统数据流	第40-41页
·以流水线的方式完成迭代	第41-44页
·流水线方式概述	第41-42页
·Map 任务的输入过程	第42页
·Collector 的迭代调度功能	第42-43页
·重用 Java 虚拟机	第43-44页
·中间结果传输过程的优化	第44-46页
·中间键值的洗牌与排序	第44-45页
·Reduce 任务的分解与转移	第45-46页
·持久化中间结果	第46页
·实验结果展示及分析	第46-50页
·实验环境及实验数据	第46-47页
·实验结果展示及分析	第47-50页
第六章总结与展望	第50-51页
参考文献	第51-54页
发表论文和参加科研情况说明	第54-55页
致谢	第55页