首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

海量数据的KNN文本分类算法的MapReduce实现研究

摘要第5-6页
abstract第6-7页
第1章 绪论第10-16页
    1.1 研究背景及意义第10页
    1.2 国内外研究现状第10-14页
        1.2.1 文本分类的研究现状第11-12页
        1.2.2 KNN算法及MapReduce化的研究现状第12-14页
    1.3 研究内容第14页
    1.4 论文组织结构第14-16页
第2章 文本分类和Hadoop平台第16-38页
    2.1 文本分类第16-29页
        2.1.1 文本分类的概述第16-18页
        2.1.2 数据预处理第18-22页
        2.1.3 特征提取第22-25页
        2.1.4 文件向量表示第25-26页
        2.1.5 分类算法第26-29页
    2.2 Hadoop平台概述第29页
    2.3 HDFS第29-34页
        2.3.1 HDFS架构第29-30页
        2.3.2 HDFS读写第30-32页
        2.3.3 数据块的备份策略第32-34页
    2.4 MapReduce第34-37页
        2.4.1 MapReduce架构第34-36页
        2.4.2 MapReduce作业生命周期第36-37页
        2.4.3 分布式缓存机制第37页
    2.5 本章小结第37-38页
第3章 KNN算法文本分类的MapReduce实现研究第38-60页
    3.1 KNN算法第38-42页
        3.1.1 KNN算法概述第38-39页
        3.1.2 KNN算法模型第39-41页
        3.1.3 KNN分类器特征第41-42页
    3.2 KNN算法文本分类的基本步骤第42-46页
    3.3 KNN算法文本分类的MapReduce化第46-59页
        3.3.1 数据预处理的MapReduce化第47-51页
        3.3.2 特征提取的MapReduce化第51-54页
        3.3.3 文件向量表示的MapReduce化第54-57页
        3.3.4 KNN算法的MapReduce化第57-59页
    3.4 本章小结第59-60页
第4章 实验验证第60-71页
    4.1 实验平台搭建第60-65页
        4.1.1 软硬件环境第60-61页
        4.1.2 硬件平台建立过程第61-63页
        4.1.3 Hadoop集群搭建过程第63-65页
    4.2 实验设计与结果分析第65-69页
        4.2.1 Hadoop集群与单机对比实验第66-67页
        4.2.2 Hadoop集群的加速比实验第67-68页
        4.2.3 Map Task内存缓冲区大小对作业影响第68-69页
        4.2.4 单节点TaskTracker故障对作业影响第69页
    4.3 本章小结第69-71页
结论第71-72页
参考文献第72-77页
攻读硕士学位期间发表的论文和取得的科研成果第77-78页
致谢第78页

论文共78页,点击 下载论文
上一篇:一种基于语义分析的微博话题搜索算法
下一篇:基于橙领的产品推荐关键技术研究