基于Hadoop的并行K-prototypes聚类算法的研究与设计

摘要	第4-5页
Abstract	第5页
第1章绪论	第10-14页
1.1 研究背景和意义	第10-11页
1.2 国内外研究现状	第11-12页
1.2.1 Hadoop 的应用	第11页
1.2.2 数据挖掘的发展现状	第11-12页
1.3 主要研究工作	第12-13页
1.3.1 问题的提出	第12页
1.3.2 研究内容	第12-13页
1.4 本文主要结构	第13-14页
第2章相关技术分析	第14-26页
2.1 Hadoop 综述	第14页
2.2 HDFS 综述	第14-16页
2.3 Map/Reduce 编程框架	第16-18页
2.4 HBase 原理介绍	第18-21页
2.4.1 HBase 系统架构	第19-20页
2.4.2 HBase 的数据模型	第20-21页
2.5 聚类算法介绍	第21-24页
2.5.1 聚类分析的目的	第22-23页
2.5.2 经典的聚类分析算法	第23-24页
2.6 本章小结	第24-26页
第3章算法的研究与设计	第26-44页
3.1 算法意义分析	第26页
3.2 并行算法整体架构设计	第26-28页
3.3 基于 Hadoop 的数据预处理架构	第28-30页
3.3.1 空属性的处理方法	第28-29页
3.3.2 错误值的检测	第29页
3.3.3 数据预处理流程	第29-30页
3.4 K-prototypes 聚类算法的分析	第30-32页
3.5 PK-prototypes 算法的研究与实现	第32-43页
3.5.1 距离的计算	第32-34页
3.5.2 HDFS 层与算法层的耦合	第34-35页
3.5.3 PK-prototypes 算法过程设计	第35-37页
3.5.4 初始中心的选取	第37-39页
3.5.5 Map 函数的设计	第39页
3.5.6 Combine 函数设计	第39-40页
3.5.7 Reduce 函数的设计	第40页
3.5.8 KprototypesDriver 调度函数的设计	第40-42页
3.5.9 与 HBase 的耦合	第42-43页
3.6 算法复杂度分析	第43页
3.7 本章小结	第43-44页
第4章算法优化与改进	第44-58页
4.1 优化 K 值的选取	第44-48页
4.2 小文件的优化	第48-52页
4.2.1 编程合并文件	第49-51页
4.2.2 采用序列化文件	第51-52页
4.2.3 HBase 存储	第52页
4.3 优化数据在节点之间传递	第52-54页
4.3.1 使用 Combiner 本地归约	第52-53页
4.3.2 优化 Hadoop 压缩算法	第53页
4.3.3 优化数据传输协议	第53-54页
4.4 算法改进	第54-57页
4.4.1 改进后算法流程	第55-56页
4.4.2 计算属性权值的分布式实现	第56-57页
4.5 本章小结	第57-58页
第5章实验验证	第58-70页
5.1 实验平台的搭建	第58-63页
5.1.1 软件环境	第58页
5.1.2 硬件环境	第58-59页
5.1.3 部署步骤	第59-63页
5.2 串行算法与 PK-prototypes 算法效率对比	第63-65页
5.2.1 实验数据	第63-64页
5.2.2 实验结果	第64-65页
5.3 优化后 PK-prototypes 算法效率分析	第65-66页
5.3.1 优化对比实验的实验数据	第65-66页
5.3.2 实验结果	第66页
5.4 PK-prototypesBAW 算法分析	第66-68页
5.4.1 PK-prototypesBAW 算法与 PK-prototypes 算法精度比较	第67-68页
5.4.2 PK-prototypesBAW 算法与 PK-prototypes 算法速率比较	第68页
5.5 本章小结	第68-70页
结论	第70-72页
参考文献	第72-76页
攻读硕士学位期间所取得的研究成果	第76-78页
致谢	第78页