首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于MapReduce的并行文本聚类

摘要第3-5页
Abstract第5-6页
目录第7-10页
第1章 绪论第10-14页
    1.1 研究背景及意义第10-11页
    1.2 国内外研究现状第11-12页
    1.3 本文主要工作第12-14页
        1.3.1 主要研究内容第12页
        1.3.2 本文组织结构第12-14页
第2章 MapReduce 与分布式计算第14-22页
    2.1 MapReduce 分布式计算框架第14-17页
        2.1.1 MapReduce 的数据分发策略第15-16页
        2.1.2 MapReduce 的排序特性第16页
        2.1.3 将算法移植到 MapReduce 编程模型第16-17页
    2.2 Hadoop 分布式计算平台第17-20页
        2.2.1 MapReduce 在 Hadoop 中的实现第18页
        2.2.2 Hadoop 中的底层存储实现第18-19页
        2.2.3 Hadoop 生态系统及下一代 MapReduce第19-20页
    2.3 本章小结第20-22页
第3章 文本聚类及其关键技术第22-28页
    3.1 文本聚类的关键技术第22-25页
        3.1.1 文本向量化第22-23页
        3.1.2 文本分词第23页
        3.1.3 特征选择第23-24页
        3.1.4 权重计算第24-25页
    3.2 常用的文本聚类算法第25-27页
        3.2.1 K 均值算法第25-26页
        3.2.2 层次聚类算法第26-27页
    3.3 本章小结第27-28页
第4章 基于 MapReduce 的文本向量化第28-38页
    4.1 基于 MapReduce 的文本分词第28-29页
    4.2 基于 MapReduce 的 TF-IDF 权重计算第29-34页
    4.3 基于 MapReduce 的特征选择第34-35页
    4.4 基于 MapReduce 的文本向量化第35-36页
    4.5 本章小结第36-38页
第5章 基于 MapReduce 的文本聚类第38-48页
    5.1 基于 MapReduce 的层次聚类数据划分算法第38-41页
        5.1.1 相关定义第39-40页
        5.1.2 文本向量分区算法第40页
        5.1.3 数据划分算法第40-41页
    5.2 基于 MapReduce 的层次聚类算法第41页
    5.3 基于 MapReduce 的层次聚类算法具体实现第41-46页
    5.4 本章小结第46-48页
第6章 实验与结果分析第48-58页
    6.1 实验环境准备第48-50页
        6.1.1 Hadoop 集群规划第48页
        6.1.2 Hadoop 集群部署第48-50页
    6.2 数据集及评价指标第50-53页
        6.2.1 实验采用的数据集第50-51页
        6.2.2 实验采用的评价指标第51-53页
    6.3 实验结果及分析第53-57页
        6.3.1 聚类效果实验第53-54页
        6.3.2 并行性能实验第54-56页
        6.3.3 算法相关实验第56-57页
    6.4 本章小结第57-58页
第7章 结束与展望第58-60页
    7.1 工作总结第58页
    7.2 未来展望第58-60页
参考文献第60-62页
致谢第62-63页
个人简历、在学期间发表的学术论文和研究成果第63页

论文共63页,点击 下载论文
上一篇:基于Hadoop的海量小文件处理性能研究与优化
下一篇:基于FPGA的线阵相机图像采集与大容量处理系统的设计与研究