首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于随机森林的文本分类并行化研究

摘要第4-5页
Abstract第5-6页
第1章 绪论第9-13页
    1.1 研究背景和意义第9-10页
    1.2 国内外研究现状第10-11页
    1.3 本文主要内容和创新点第11-12页
    1.4 论文结构第12-13页
第2章 文本分类相关概念与Spark框架第13-24页
    2.1 文本分类技术第13-19页
        2.1.1 文本预处理第13-14页
        2.1.2 文本特征选择第14-16页
        2.1.3 文本特征权重计算第16-17页
        2.1.4 文本分类算法第17-18页
        2.1.5 分类性能评价第18-19页
    2.2 Spark分布式计算框架第19-23页
        2.2.1 Spark概述第19-21页
        2.2.2 Spark RDD第21-22页
        2.2.3 Spark架构第22-23页
    2.3 本章小结第23-24页
第3章 随机森林算法及其改进第24-31页
    3.1 随机森林算法基本概念第24-27页
        3.1.1 决策树算法第24-26页
        3.1.2 随机森林算法第26-27页
    3.2 基于不平衡数据随机森林算法第27-28页
        3.2.1 不平衡数据介绍第27页
        3.2.2 随机森林算法的改进第27-28页
    3.3 加权随机森林算法的设计第28-30页
    3.4 本章小结第30-31页
第4章 基于Spark文本分类的并行化设计第31-43页
    4.1 文本处理并行设计第32-37页
        4.1.1 文本预处理并行设计第32-33页
        4.1.2 特征选择并行化设计第33-35页
        4.1.3 特征权重计算并行化第35-37页
    4.2 随机森林分类算法并行设计第37-42页
        4.2.1 随机森林训练过程并行设计第37-40页
        4.2.2 随机森林测试过程并行设计第40-42页
    4.3 本章小结第42-43页
第5章 实验设计与结果分析第43-52页
    5.1 Spark安装和集群部署第43-46页
        5.1.1 搭建Hadoop分布式集群第43-45页
        5.1.2 搭建Spark分布式集群第45-46页
    5.2 分类模型性能评价第46-49页
        5.2.1 不平衡数据分类评价第46-47页
        5.2.2 分类性能评价第47-49页
    5.3 并行化性能评价第49-51页
        5.3.1 运行时间第49-50页
        5.3.2 加速比第50-51页
    5.4 本章小结第51-52页
总结与展望第52-53页
参考文献第53-56页
致谢第56-57页
附录 攻读硕士学位期间所发表的论文第57页

论文共57页,点击 下载论文
上一篇:医疗CT文本结构化研究与系统实现
下一篇:基于超像素与特征点的稳健性目标跟踪方法研究