基于Hadoop平台的网络数据并行处理系统设计与实现

摘要	第5-6页
Abstract	第6页
缩略语	第13-14页
第一章绪论	第14-18页
1.1 引言	第14页
1.2 研究背景与选题意义	第14-15页
1.3 国内外研究现状	第15页
1.4 论文的研究内容及章节安排	第15-18页
第二章网络数据并行处理系统相关技术综述	第18-28页
2.1 引言	第18页
2.2 聚类算法相关技术	第18-21页
2.2.1 相似度度量	第18-19页
2.2.2 k-means聚类算法	第19页
2.2.3 K-中心点聚类算法	第19-20页
2.2.4 k-means++聚类算法	第20-21页
2.3 聚类算法评价指标	第21-22页
2.3.1 内部评价指标	第21-22页
2.3.2 外部评价指标	第22页
2.4 Hadoop分布式平台	第22-26页
2.4.1 HDFS分布式文件系统	第23-24页
2.4.2 MapReduce分布式计算框架	第24页
2.4.3 资源管理系统YARN	第24-25页
2.4.4 Spark分布式计算框架	第25-26页
2.5 本章小结	第26-28页
第三章 Spark相关性能优化研究	第28-42页
3.1 引言	第28页
3.2 开发过程中相关性能优化研究	第28-30页
3.2.1 尽量避免使用shuffle类算子	第28-29页
3.2.2 对多次使用的RDD进行持久化	第29-30页
3.3 shuffle性能优化研究	第30-40页
3.3.1 MapReduce shuffle	第30-31页
3.3.2 Spark shuffle	第31-40页
3.4 本章小结	第40-42页
第四章基于Spark平台的k-means算法研究	第42-54页
4.1 引言	第42页
4.2 克洛斯卡尔算法	第42-43页
4.3 基于克洛斯卡尔算法改进的k-means算法	第43-49页
4.4 基于克洛斯卡尔算法和谷本距离改进的k-means算法	第49-52页
4.5 本章小结	第52-54页
第五章基于Hadoop平台的网络数据并行处理系统设计与实现	第54-70页
5.1 引言	第54页
5.2 Hadoop集群及集群监控模块搭建	第54-58页
5.2.1 硬件环境	第54-55页
5.2.2 软件环境	第55页
5.2.3 Hadoop平台的搭建	第55-58页
5.3 网络数据处理系统的实现	第58-68页
5.3.1 网络数据获取模块	第58-60页
5.3.2 聚类模型模块	第60-64页
5.3.3 聚类模型应用模块	第64-68页
5.4 本章小结	第68-70页
第六章总结与展望	第70-72页
6.1 总结	第70-71页
6.2 展望	第71-72页
致谢	第72-74页
参考文献	第74-78页
附录A 攻读硕士学位期间的研究成果	第78页