首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Hadoop自动文本分类的研究与实现

摘要第3-4页
ABSTRACT第4页
第1章 绪论第7-13页
    1.1 课题背景及研究的目的和意义第7-9页
        1.1.1 课题背景第7-8页
        1.1.2 研究的目的和意义第8-9页
    1.2 国内外研究现状第9-11页
        1.2.1 自动文本分类国内外研究现状第9-10页
        1.2.2 Hadoop 的研究与应用国内外研究现状第10-11页
    1.3 本文的主要研究内容第11-13页
第2章 Hadoop 系统集群的研究与配置第13-33页
    2.1 MapReduce 原理及编程模型第13-23页
        2.1.1 MapReduce 角色分类第13页
        2.1.2 编程模型第13-16页
        2.1.3 数据类型及输入输出格式类型第16-21页
        2.1.4 链式 MapReduce 作业第21-23页
    2.2 Hadoop 分布式文件系统第23-27页
        2.2.1 HDFS 的体系结构第23-25页
        2.2.2 HDFS 读写数据流第25-27页
    2.3 Hadoop 系统集群的安装与配置第27-32页
        2.3.1 Hadoop 系统结构第27-28页
        2.3.2 Hadoop 准备集群环境第28-30页
        2.3.3 Hadoop 集群安装与配置第30-32页
    2.4 本章小结第32-33页
第3章 文本分类方法与算法设计第33-43页
    3.1 文本分类模型设计第33页
    3.2 文本预处理第33-34页
    3.3 特征选择方法设计第34-38页
        3.3.1 常用特征选择方法第34-36页
        3.3.2 基于卡方统计特征选择方法设计第36-38页
    3.4 文本向量化算法设计第38-39页
    3.5 分类技术与方法设计第39-42页
        3.5.1 常用分类技术与方法第39-41页
        3.5.2 余弦相似度分类方法设计第41-42页
    3.6 本章小结第42-43页
第4章 基于 Hadoop 文本分类的设计与实现第43-58页
    4.1 文本预处理过程第43-53页
        4.1.1 文本预处理流程第43-44页
        4.1.2 文本重命名第44-46页
        4.1.3 大写字母变小写及分词第46-49页
        4.1.4 去停用词第49-50页
        4.1.5 词根还原第50-52页
        4.1.6 文本合并第52-53页
    4.2 文本向量化过程第53-55页
        4.2.1 选择特征词第53页
        4.2.2 计算文本 tfidf 向量第53-55页
    4.3 文本分类过程第55-56页
        4.3.1 训练学习过程第55页
        4.3.2 测试检验过程第55-56页
    4.4 测试结果与分析第56-57页
    4.5 本章小结第57-58页
结论第58-59页
参考文献第59-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:EtherCAT工业以太网从站设备的软件设计与实现
下一篇:基于ZigBee的智能家居网关的研究与实现