首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

文档的分类与相似性研究及其并行化实现

中文摘要第2-3页
Abstract第3页
中文文摘第5-9页
绪论第9-15页
    第一节 研究背景和意义第9-10页
    第二节 国内外研究现状第10-13页
    第三节 论文的主要研究内容第13页
    第四节 论文的组织结构第13-15页
第一章 相关算法和技术简介第15-27页
    第一节 文本分类概述第15-19页
        1.1 文本分类主要流程第15页
        1.2 特征降维的主要方法第15-18页
        1.3 文本分类的主要算法第18-19页
    第二节 相似性计算概述第19-20页
    第三节 云计算平台简介第20-25页
        3.1 Hadoop简介第20-23页
        3.2 Spark简介第23-25页
    第四节 软件错误报告集介绍第25-26页
    第五节 本章小结第26-27页
第二章 文本分类降维方法的改进第27-35页
    第一节 TF-IDF算法介绍第27-28页
    第二节 TF-IDF算法的改进第28-29页
        2.1 改进方法之TF-IDFD第28-29页
        2.2 改进方法之TF-IDFCD第29页
    第三节 权值处理方法第29-30页
    第四节 实验及结果分析第30-34页
    第五节 本章小结第34-35页
第三章 朴素贝叶斯分类算法的改进及其在Hadoop上的实现第35-47页
    第一节 朴素贝叶斯算法介绍第35-37页
    第二节 基于多项式模型的朴素贝叶斯算法改进第37-38页
    第三节 改进算法在Hadoop上的设计第38-41页
        3.1 训练阶段第38-40页
        3.2 测试阶段第40-41页
    第四节 实验结果和分析第41-44页
    第五节 朴素贝叶斯增量学习方法第44-46页
    第六节 本章小结第46-47页
第四章 文档相似性研究及其在分布式集群上的实现第47-59页
    第一节 Simhash算法介绍第47-49页
    第二节 改进的文档相似性判断算法第49-54页
    第三节 改进算法在分布式集群上的设计第54-57页
        3.1 改进算法在Hadoop集群上的实现第54-56页
        3.2 改进算法在Spark集群上的实现第56-57页
    第四节 实验结果和分析第57-58页
    第五节 本章小结第58-59页
第五章 总结与展望第59-61页
    第一节 总结第59-60页
    第二节 下一步工作展望第60-61页
参考文献第61-66页
攻读学位期间承担的科研任务与主要成果第66-67页
致谢第67-68页
个人简历第68-70页

论文共70页,点击 下载论文
上一篇:武夷山景区价格策略对旅游意愿的影响研究
下一篇:基于主题模型的网络短文本情感分析研究