首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向海量文本的分类算法研究

摘要第8-9页
ABSTRACT第9页
第1章 绪论第10-16页
    1.1 研究背景和意义第10-11页
    1.2 研究现状第11-13页
        1.2.1 文本分类研究现状第11-12页
        1.2.2 Hadoop研究现状第12-13页
    1.3 主要内容和组织结构第13-16页
第2章 文本分类详述第16-24页
    2.1 文本分类的基本过程第16-17页
    2.2 文本预处理第17-19页
        2.2.1 文本分词第18-19页
        2.2.2 去除停用词第19页
    2.3 文本分类关键技术第19-22页
        2.3.1 文本特征选取第19-20页
        2.3.2 文本数据的表示第20-21页
        2.3.3 文本分类算法第21-22页
    2.4 本章小结第22-24页
第3章 TFIDF算法的特征词权重的研究与改进第24-32页
    3.1 特征词权重及TFIDF算法的概述第24-25页
    3.2 TFIDF算法研究现状第25-26页
    3.3 TFIDF算法及改进第26-29页
        3.3.1 TFIDF第26-27页
        3.3.2 现有的TFIDF算法中存在的缺点第27-28页
        3.3.3 TFIDF算法的改进第28-29页
    3.4 实验结果及分析第29-30页
    3.5 本章小结第30-32页
第4章 基于海量数据的文本分类算法的研究与改进第32-40页
    4.1 KNN文本分类算法的研究第32-33页
        4.1.1 现有文本分类算法的特点第32页
        4.1.2 现有的KNN文本分类算法第32-33页
    4.2 基于海量文本数据文本分类技术的改进第33-36页
        4.2.1 基于粗糙集的文本向量空间分布描述第33-34页
        4.2.2 基于关联分析的文本分类描述第34-35页
        4.2.3 改进的粗糙集关联分析算法第35-36页
    4.3 实验验证与结果分析第36-38页
    4.4 本章小结第38-40页
第5章 Hadoop平台下的基于海量数据文本分类算法的实现第40-54页
    5.1 Hadoop简介第40-46页
        5.1.1 Hadoop生态系统第40-43页
        5.1.2 HDFS分布式文件系统第43-44页
        5.1.3 MapReduce并行计算框架第44页
        5.1.4 MapReduce编程模型简介第44-46页
    5.2 文本分类并行化分析第46-47页
    5.3 分布式预处理第47-49页
        5.3.1 预处理流程第47-48页
        5.3.2 预处理的MapReduce实现第48-49页
    5.4 并行化实现TFIDF第49-50页
    5.5 并行化实现向量空间模型构建第50-51页
    5.6 并行化实现KNN分类算法第51-52页
    5.7 本章小结第52-54页
第6章 实验环境与结果分析第54-58页
    6.1 环境搭建第54-55页
        6.1.1 实验环境第54页
        6.1.2 Hadoop集群环境搭建第54-55页
    6.2 实验结果与分析第55-58页
第7章 总结第58-60页
参考文献第60-66页
致谢第66-68页
在学期间主要科研成果第68-69页
附件第69页

论文共69页,点击 下载论文
上一篇:基于点特征的室内移动机器人主动视觉定位方法研究
下一篇:可决策的正负序列模式选取方法研究