首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Hadoop云计算平台的聚类算法并行化研究

摘要第3-5页
Abstract第5-6页
1 绪论第9-13页
    1.1 论文研究背景第9-10页
    1.2 国内外研究现状第10-11页
    1.3 论文研究目的及其意义第11页
    1.4 论文组织结构第11-13页
2 文本聚类第13-27页
    2.1 文本聚类概述第13-14页
    2.2 文本聚类分类第14-16页
    2.3 文本聚类技术第16-26页
        2.3.1 文本分词技术第16-18页
        2.3.2 特征降维方法第18-21页
        2.3.3 文本表示方法第21-22页
        2.3.4 特征权重计算方法第22-23页
        2.3.5 距离和相似度度量第23-26页
    2.4 本章小结第26-27页
3 Hadoop 云计算平台第27-38页
    3.1 HDFS 分布式文件系统第28-34页
        3.1.1 HDFS 的特点第28-29页
        3.1.2 HDFS 的体系结构第29-31页
        3.1.3 保障 HDFS 可靠性措施第31-32页
        3.1.4 HDFS 缺点及改进第32-34页
    3.2 MapReduce 编程模型第34-37页
        3.2.1 MapReduce 编程思想第34-36页
        3.2.2 MapReduce 处理流程第36-37页
    3.3 本章小结第37-38页
4 基于 MapReduce 编程模型的 Canopy 文本聚类算法第38-52页
    4.1 k 均值算法简介第38-40页
    4.2 k 均值算法 MapReduce 并行化第40-44页
    4.3 Canopy 算法简介第44-47页
    4.4 Canopy 算法 MapReduce 并行化设计第47-50页
    4.5 本章小结第50-52页
5 实验与分析第52-59页
    5.1 实验环境第52-53页
    5.2 数据集预处理第53页
    5.3 单机对比实验第53-54页
    5.4 集群加速比实验第54-55页
    5.5 聚类结果分析第55-58页
    5.6 本章小结第58-59页
结论第59-60页
参考文献第60-63页
在学研究成果第63-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:两种多主体平台集成方案的设计与实现
下一篇:非凸集值优化问题的最优条件