首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Hadoop的文本特征选择算法的研究

中文摘要第3-5页
Abstract第5-6页
第一章 绪论第10-14页
    1.1 研究背景和意义第10-11页
    1.2 研究现状第11-12页
        1.2.1 文本分类研究现状第11-12页
        1.2.2 Hadoop研究现状第12页
    1.3 主要内容和组织结构第12-14页
第二章 文本分类第14-19页
    2.1 文本分类概述第14-15页
        2.1.1 文本分类第14页
        2.1.2 文本分类的一般过程第14-15页
    2.2 文本分类关键技术第15-16页
        2.2.1 分词和去停用词第15页
        2.2.2 文本表示第15-16页
        2.2.3 文本分类算法第16页
    2.3 文本分类性能评价第16-18页
        2.3.1 标准数据集第17页
        2.3.2 分类结果评估标准第17-18页
    2.4 本章小结第18-19页
第三章 Hadoop分布式平台第19-25页
    3.1 Hadoop平台发展历史第19-20页
        3.1.1 Hadoop版本演化第19页
        3.1.2 Hadoop生态系统第19-20页
    3.2 HDFS分布式文件系统第20-21页
        3.2.1 HDFS简介第20页
        3.2.2 HDFS架构第20-21页
    3.3 MapReduce并行计算框架第21-24页
        3.3.1 MapReduce架构第21-22页
        3.3.2 MapReduce作业生命周期第22-24页
    3.4 常见算法的MapReduce化第24页
    3.5 本章小结第24-25页
第四章 文本特征选择方法改进第25-35页
    4.1 特征降维方法介绍第25-28页
        4.1.1 文档频率第25页
        4.1.2 互信息第25-26页
        4.1.3 卡方统计第26-27页
        4.1.4 信息增益第27页
        4.1.5 期望交叉熵第27-28页
    4.2 特征选择算法性能分析第28-29页
    4.3 一种新颖的特征选择方法CCD第29-30页
    4.4 单机环境下的实验设计第30-34页
        4.4.1 实验一第30-32页
        4.4.2 实验二第32-34页
        4.4.3 实验对比分析第34页
    4.5 本章小结第34-35页
第五章 基于hadoop实现改进的文本分类过程第35-50页
    5.1 并行实现文本分类分析第35-36页
    5.2 自定义文本输入格式第36-38页
        5.2.1 InputFormat类解析第36-37页
        5.2.2 自定义文本输入格式第37-38页
    5.3 并行化实现文本分词第38-41页
        5.3.1 Lucene的中文分词介绍和对比第38-40页
        5.3.2 并行化实现文本分词第40-41页
    5.4 并行化实现TFIDF第41-43页
    5.5 并行化实现特征选择方法CCD第43-46页
    5.6 并行化实现向量空间模型构建第46-47页
    5.7 并行化实现KNN分类算法第47-49页
    5.8 本章小结第49-50页
第六章 实验设计与分析第50-53页
    6.1 环境搭建以及数据准备第50-51页
        6.1.1 实验环境第50页
        6.1.2 Hadoop集群环境搭建第50-51页
        6.1.3 eclipse中配置hadoop插件第51页
    6.2 实验结果与分析第51-53页
第七章 总结与展望第53-55页
    7.1 全文总结第53页
    7.2 研究展望第53-55页
参考文献第55-57页
在学期间的研究成果第57-58页
致谢第58页

论文共58页,点击 下载论文
上一篇:基于改进PSO-RBF神经网络的气温预测模型
下一篇:基于Grassberger熵的互信息特征选择算法研究