首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

基于Hadoop的并行K-prototypes聚类算法的研究与设计

摘要第4-5页
Abstract第5页
第1章 绪论第10-14页
    1.1 研究背景和意义第10-11页
    1.2 国内外研究现状第11-12页
        1.2.1 Hadoop 的应用第11页
        1.2.2 数据挖掘的发展现状第11-12页
    1.3 主要研究工作第12-13页
        1.3.1 问题的提出第12页
        1.3.2 研究内容第12-13页
    1.4 本文主要结构第13-14页
第2章 相关技术分析第14-26页
    2.1 Hadoop 综述第14页
    2.2 HDFS 综述第14-16页
    2.3 Map/Reduce 编程框架第16-18页
    2.4 HBase 原理介绍第18-21页
        2.4.1 HBase 系统架构第19-20页
        2.4.2 HBase 的数据模型第20-21页
    2.5 聚类算法介绍第21-24页
        2.5.1 聚类分析的目的第22-23页
        2.5.2 经典的聚类分析算法第23-24页
    2.6 本章小结第24-26页
第3章 算法的研究与设计第26-44页
    3.1 算法意义分析第26页
    3.2 并行算法整体架构设计第26-28页
    3.3 基于 Hadoop 的数据预处理架构第28-30页
        3.3.1 空属性的处理方法第28-29页
        3.3.2 错误值的检测第29页
        3.3.3 数据预处理流程第29-30页
    3.4 K-prototypes 聚类算法的分析第30-32页
    3.5 PK-prototypes 算法的研究与实现第32-43页
        3.5.1 距离的计算第32-34页
        3.5.2 HDFS 层与算法层的耦合第34-35页
        3.5.3 PK-prototypes 算法过程设计第35-37页
        3.5.4 初始中心的选取第37-39页
        3.5.5 Map 函数的设计第39页
        3.5.6 Combine 函数设计第39-40页
        3.5.7 Reduce 函数的设计第40页
        3.5.8 KprototypesDriver 调度函数的设计第40-42页
        3.5.9 与 HBase 的耦合第42-43页
    3.6 算法复杂度分析第43页
    3.7 本章小结第43-44页
第4章 算法优化与改进第44-58页
    4.1 优化 K 值的选取第44-48页
    4.2 小文件的优化第48-52页
        4.2.1 编程合并文件第49-51页
        4.2.2 采用序列化文件第51-52页
        4.2.3 HBase 存储第52页
    4.3 优化数据在节点之间传递第52-54页
        4.3.1 使用 Combiner 本地归约第52-53页
        4.3.2 优化 Hadoop 压缩算法第53页
        4.3.3 优化数据传输协议第53-54页
    4.4 算法改进第54-57页
        4.4.1 改进后算法流程第55-56页
        4.4.2 计算属性权值的分布式实现第56-57页
    4.5 本章小结第57-58页
第5章 实验验证第58-70页
    5.1 实验平台的搭建第58-63页
        5.1.1 软件环境第58页
        5.1.2 硬件环境第58-59页
        5.1.3 部署步骤第59-63页
    5.2 串行算法与 PK-prototypes 算法效率对比第63-65页
        5.2.1 实验数据第63-64页
        5.2.2 实验结果第64-65页
    5.3 优化后 PK-prototypes 算法效率分析第65-66页
        5.3.1 优化对比实验的实验数据第65-66页
        5.3.2 实验结果第66页
    5.4 PK-prototypesBAW 算法分析第66-68页
        5.4.1 PK-prototypesBAW 算法与 PK-prototypes 算法精度比较第67-68页
        5.4.2 PK-prototypesBAW 算法与 PK-prototypes 算法速率比较第68页
    5.5 本章小结第68-70页
结论第70-72页
参考文献第72-76页
攻读硕士学位期间所取得的研究成果第76-78页
致谢第78页

论文共78页,点击 下载论文
上一篇:梨园中学化学实验室管理系统的设计与实现
下一篇:数字化芭蕾基训教学演示的设计与实现